CRISP-DM方法论

什么是CRISP-DM方式论

CRISP-DM方式论是NCR、OHRA、SPSS、Daimler-Benz等全球企业一起开发出来的数据挖掘方式论,它没有特定的工具限制,也没有特定领域局限,是适用于所有行业的标准方式论,相对于现存的其他数据挖掘方式论,CRISP - DM方式论更具备优越性,因而被广泛地采用。

CRISP-DM方式论的内容

CRISP - DM方式论把数据挖掘实践定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型发布,以下分别加以简介:

(一)商业理解阶段商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题。要从商业角度对业务部门的需求实行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案。具体包含商业背景解析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估危机和意外、初步理解行业术语,并确定数据挖掘的目标和制定数据挖掘计划。

(二)数据理解阶段数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始,然后熟悉数据,具体包含以下工作内容:检测数据质量,对数据实行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

(三)数据准备阶段数据准备是将前面找到的数据实行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模解析对象的最终数据集。数据准备阶段的具体工作紧要包含数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等,各项工作并不需要预先规范好执行顺序,而且数据准备工作还有可能多次执行。

(四)建立模型阶段建立模型是应用软件工具,选择合适的建模方式,处理准备好的数据宽表,找出数据中隐藏的规律。在建立模型阶段,将选择和使用各种建模方式,并将模型参数实行优化。对同样的业务问题和数据准备,可能有多种数据挖掘技术方式可供选用,此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方式。在建模历程中,还可能会发现一些潜在的数据问题,要求回到数据准备阶段。建立模型阶段的具体工作包含:选择合适的建模技术、实行检验设计、建造模型。

(五)模型评估阶段模型评估是要从业务角度和统计角度实行模型结论的评估。要求检查建模的整个历程,以确保模型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的发布计划达成一致。

(六)模型发布阶段模型发布又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据区别的企业业务需求,模型发布的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。

郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。东方财富网不保证该信息(包含但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500