粗糙集

什么是粗糙集

粗糙集是一种处理不精确、不确定和不完全数据的新的数学方式。它可以通过对数据的解析和推理来发现隐含的知识、揭示潜在的规律。在粗集理论中,知识被认为是一种分类能力。其核心是利用等价关系来对对象集合实行划分。

粗糙集理论提出了知识的约简方式,是在保留基本知识(信息),同时保证对象的分类能力不变的基础上,消除重复、冗余的属性和属性值,实现对知识的压缩和再提炼。其操作步骤:(1)通过对条件属性的约简,即从决策表中消去某些列;(2)消去重复的行和属性的冗余值

粗糙集的特点

粗糙集最紧要的特点是:它无需提给对知识或数据的主观评价,仅根据观测数据就能达到删除冗余信息,比较不完备知识的程度-粗糙度,界定属性间的依赖性和重要性的目的。

粗糙集的基本概念

粗糙集的基本概念有:

  • (1)信息系统。一般地,一个知识表达系统或信息系统可以表达成, 式中,为论域,它是全体样本的集合;为属性集合,其中子集是条件属性集,反映对象的特征,D为决策属性集,反映对象的类别;为属性集合,表示属性r的取值范围;为一个信息函数,用于确定U中每一个对象的属性值,即任一。
  • (2)不可分辨关系。当两个对象由相同的属性来描述时,这两个对象在该系统中被归于同一类,它们的关系称之为不可分辨关系,即对于任一属性子集,如果对象,,,当且仅当时,和是不可分辨关系,不可分辨关系简称等价关系。
  • (3)下近似集与上近似集。下近似集定义为:根据现有知识R,判断U中所有肯定属于X的对象所组成的集合,即,式中,表示等价关系R下包含关系x的等价类;上近似集定义为:根据现有知识R,判断U中一定属于和可能属于X的对象所组成的集合。

粗糙集与模糊集比较

粗糙集与模糊集都能处理不完备( imperfect) 数据, 但方式区别, 模糊集注重描述信息的含糊(vagueness) 程度, 粗糙集则强调数据的不可辨别( indiscern ib ility) , 不精确( imp recision) 和模棱两可 (am b igu ity). 使用图像处理中的语言来作比喻, 当论述图像的清晰程度时, 粗糙集强调组成图像象素的大小, 而模糊集则强调象素存在区别的灰度. 粗糙集研究的是区别类中的对象组成的集合之间的关系, 重在分类; 模糊集研究的是属于同一类的区别对象的隶属的关系,重在隶属的程度. 因此粗糙集和模糊集是两种区别的理论, 但又不是相互对立的, 它们在处理不完善数据方面可以互为补充.

粗糙集在数据挖掘中的应用

粗集理论在数据挖掘中的应用相当广泛,涉及的领域有医疗研究、市场解析、商业危机预测、气象学、语音识别、工程设计等.在众多的数据挖掘系统中,粗集理论的作用紧要集中在以下几个方面:

1、数据约简

粗集理论可提给有效方式用于对信息系统中的数据实行约简.在数据挖掘系统的预处理阶段,通过粗集理论删除数据中的冗余信息(属性、对象以及属性值等),可大大提高系统的运算速度。

2、规则抽取

与其它方式(如神经网络)相比,使用粗集理论生成规则是相对简单和直接的.信息系统中的每一个对象既对应一条规则,粗集方式生成规则的一般步骤为:(1)得到条件属性的一个约简,删去冗余属性;(2)删去每规则的冗余属性值;(3)对剩余规则实行合并。

3、增量算法

面对数据挖掘中的大规模、高维数据,寻找有效的增量算法是一个研究热点。

4、与其他方式的融合

粗集理论与其它方式如神经网络、遗传算法、模糊数学、决策树等相结合可以发挥各自的优势,大大增强数据挖掘的效率。

郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。东方财富网不保证该信息(包含但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500