什么是大数据解析
大数据解析是指对规模巨大的数据实行解析。
大数据解析的方式
1. Analytic Visualizations(可视化解析)
不管是对数据解析专家还是普通用户,数据可视化是数据解析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
2. Data Mining Algorithms(数据挖掘算法)
可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点解析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
3. Predictive Analytic Capabilities(预测性解析能力)
数据挖掘可以让解析员更好的理解数据,而预测性解析可以让解析员根据可视化解析和数据挖掘的结果做出一些预测性的判断。
4. Semantic Engines(语义引擎)
我们知道由于非结构化数据的多样性带来了数据解析的新的挑战,我们需要一系列的工具去解析,提取,解析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。[2]
5. Data Quality and Master Data Management(数据质量和数据经营管理)
数据质量和数据经营管理是一些经营管理方面的最佳实践。通过标准化的流程和工具对数据实行处理可以保证一个预先定义好的高质量的解析结果。
大数据解析的步骤
- 统计/解析
统计与解析紧要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据实行普通的解析和分类汇总等,以满足大多数常见的解析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与解析这部分的紧要特点和挑战是解析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。
- 导入/预处理
将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据实行流式计算,来满足部分业务的实时计算需求。导入与预处理历程的特点和挑战紧要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
- 挖掘
比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,紧要使用的工具备HadoopMahout。