职称论文发表 | 职称论文发表 专业提供:发表论文、论文发表、毕业论文、职称论... | |
住在汉口网 | 住在汉口网是一个专业提供汉口房产信息、车辆服务、生活服务、招... | |
职称论文网 | 职称论文网提供:发表论文、论文发表、毕业论文、职称论等服务。 | |
|
摘 要 介绍了空间数据仓库的特点和数据挖掘技术的理论,论述了在GIS领域中数据挖掘技术运用的初步探索,指出了数据挖掘技术在GIS应用中未解决的问题及发展方向。
关键词 空间数据仓库 GIS 数据挖掘
空间数据与其他类型数据的重要区别就是它的空间和时间特性非常明显,相应的,GIS(Geographic Information Sys?鄄tem,地理信息系统的简称)研究的空间信息则主要包括地理位置、属性和时间三个方面,具有比一般关系数据库和事务数据库更加丰富和复杂的语义信息。
空间数据还含有丰富的隐含信息,如数字高程模型[DEM或TIN],除了包括高程信息,还隐含了地质岩性与构造方面的信息;植物的种类是显式信息,但其中还隐含了气候的水平地带性和垂直地带性的信息等等。
另外,由于GIS获取数据手段的多样性和先进性,以及空间数据的广泛性、关联性和延续性,空间数据量的增长非常迅速。如何有效的管理这些数据,并发现其背后隐藏的知识,已成为GIS技术目前面临的主要问题之一。将数据仓库及数据挖掘技术引入GIS,形成自动化、智能化的空间数据挖掘与知识发现的通用模型,对于增强空间数据处理能力和提高GIS的应用水平都具有非常重要的意义。
1 建立基于空间数据的数据仓库
空间数据仓库根据除了具有普通数据仓库的一般特征,还具有空间数据的时空特征,具体如下:
1.1 是面向主题的
为了给决策支持提供服务,空间数据的信息组织应以业务工作的主题内容为主线。主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域。
1.2 集成性
一般的GIS应用系统是数据仓库重要的数据来源。为此数据仓库以各种面向应用的GIS系统为基础,通过元数据描述规则,将它们抽取和聚集起来,从中过滤到各种有用的数据。提取到的数据在空间数据仓库中采用一致储存和管理规则,消除原始数据中不需要和冗余的部分,从而使数据结构由应用型为主题型。
1.3 空间序列的方位数据
自然界中的事物除了具有自己的空间位置外,彼此之间还有着相互的空间关系,因此空间数据还有对应关系的空间标志,因此空间数据仓库可以充分利用这些数据,进行空间分析,以反映自然界的空间变化趋势。
1.4 时间序列的历史数据
自然界的空间是随着时间而演变的,在不同时段采取到的空间数据信息就包含了时间变化因子,可以进行时间趋势分析。
2 数据挖掘分析方法
下面将主要从挖掘任务和挖掘方法的角度,着重讨论自动预测、关联分析、序列模式分析、数据总结、分类发现和聚类分析六种重要的分析方法。
2.1 自动预测趋势和行为
数据挖掘自动在大型数据库中寻找预测性信息,从而迅速直接由数据本身得出相应结论。
2.2 关联分析
它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。也就是通过数据挖掘可找出数据库中隐藏的关联网,从而指导决策制定。
2.3 序列模式分析
序列模式分析的目的也是为了挖掘出数据之间的联系,但它的侧重点在于分析数据间的前后关系(因果关系)。
2.4 数据总结
数据总结是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要从数据泛化的角度来讨论数据总结,数据泛化是一种把数据库中的有关数据从低层次抽象到高层次的过程,目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。
2.5 分类发现
分类的目的是学会一个分类函数或分类模型(也称分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。
构造分类器的方法有统计、机器学习、神经网络等等。统计方法包括贝叶斯法和非参数法(近邻学习或基于事例的学习),对应的知识表示则为判别函数和原型事例。机器学习方法包括决策树法和规则归纳法,决策树法表示为决策树或判别树,规则归纳法则一般为产生式规则。神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表联接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数。
2.6 聚类分析
聚类分析法是分类分析法的逆过程,它的输入集是一组未标定的记录,即输入的记录没有作任何处理。目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。
3 空间数据仓库挖掘
从空间数据仓库中发现知识,是指从空间数据仓库中提取用户感兴趣的空间模式与特征、空间与非空间数据的普遍关系及其他一些隐含在数据仓库中的普遍的数据特征。而空间数据挖掘和知识发现技术的引入,将使GIS系统具有自动学习的功能,能使系统自动获取知识,使其有可能成为真正的“智能”系统(见附图)。
|