大数据的受、想、形、识
吴宗敏
摘要:大数据是数据科学的一个研究领域。要从受(数据采集)、想(数据分析)、形(数据重构)、识(数据挖掘、预测、利用)等四个方面来研究它,从而获得认识现实世界的大智慧。
关键词:大数据;数据科学;受;想;形;识
总结:文章重点从受、想、形、识四个角度来解释“何谓大数据”这一问题。
1、受——数据采集。数据科学首先要在数据采集上将看不见、听不到的数据转换为看得见、听得到的数据,将不是用通常手段采集的数据转换为通常的数据表达形式,以扩充、提高人们采集数据的能力,特别是拓展隐能力。
2、想——数据分析。数据从数学上来说主要表现为点或高维空间的点,函数离散化以后还是点,算子离散化以后是矩阵或张量,仍然是高维空间的点。通俗地讲,数据处理就是处理高维空间的点的关系。而点之间的关系是由距离或连接图、连接路径组成的。当点组成某一具体对象时形成该对象的模糊性,这时学习理论的两个根本问题又出现了 :一个娃模拟识别,就是寻找关键同、特征;一个是分类或聚类,把相近或相异的关键词用数学表示出来,出现数据分析。
3、形——数据重构。通常认为,数据有多元的结构属性:真实的在、记录的数据、人类的理解。人脑形成的对该事物的理解与采集的数据是有差别的,而采集数据与该事物的真实存在也是有差别的。当从真实存在的事件中采集了数据后,人脑会对之复原或重构,在人脑中形成对该事件的形象或理解——脑海中的世界。
4、识——数据挖掘、预测、利用。人脑有非常强的数据解构、重建及根据经验再融合重构的能力。大数据就是希望利用数学通过计算机来实现这一能力,并且希望比人类做得更好、更快。
(出处:《科学》2014年1月第66卷第1期)