大数据、数理统计、数据挖掘、数据分析之间的关联与差异
最近跟朋友聊到大数据相关的议题,才发现自己对于几个相关的名词都没有搞懂,就利用周末自己整理了一下,参考了网上许多专家的释疑文章,分享给有兴趣的伙伴朋友们作为参考。
数理统计
以概率论为基础,研究社会和自然界中大量随机现象数量变化基本规律的一种方法。其主要内容有参数估计、假设检验、相关分析、试验设计、非参数统计、过程统计等。
数据分析(Data Analysis)
指通过建立审计分析模型对数据进行核对、检查、复算、判断等操作,将被审计单位数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。
数据挖掘(Data Mining,DM)
就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业资料库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
大数据
指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
数理统计的概念与发展应该有近400年,其后很多应用领域不断增加,也是目前科学研究不可缺少的工具。数据分析是把一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,来找出内在规律,比较像是透过各种方法与工具来尝试解决问题的一个过程。数据挖掘其实是一种深层次的数据分析方法,由于近年计算能力的限制已经大范围的突破,可以对大数据量进行分析,而叫做挖掘是因为应用范畴已经跨出科研,往商业价值寻求探索,含金量也变高了。而大数据则就是对于现在大量数据的一个统称。
因此就数理统计与数据挖掘这两个都属于工具(方法)的部分再进行一个简单的关联性对比。
普遍的观点认为,数据挖掘是数理统计的延伸和发展。它们的很多方法在很多情况下都是同根同源的。例如,概率论和随机事件是统计学的核心理论之一,统计分析中的抽样估计需要应用该理论,而数据挖掘技术的朴素贝叶斯分类就是这些统计理论的发展和延伸。
但是两者之间的一些方法运用上还是会出现混淆,例如,主成分分析和回归分析。从严格定义上讲,这两种分析方法都属于数理统计分析方法,但在数据挖掘实战应用中也常常会用到这种方式,因此主成分分析和回归分析也是数据挖掘商业价值中常用的一种分析技术和数据处理技术。
二者之间也存在一些比较明显的差异
虽然二者之间有同有异,但是在企业的应用中,不需要硬性地把两者区分开来,也没必要,不会有分析人员说:「我只用数据挖掘技术来分析」或者「我只用数理统计技术来分析」。
比较合适的构想与方法应该是:
分析具体的使用情境与决策需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而一个具体完善的需求分析一般都会有两种以上不同的思路和算法可以去探索,最后可以根据验证的效果和资源耗用等因素进行综合考虑,决定出最终的思路、算法和解决方案。
分享:冠卓咨询
说明:转载请注明“精益”