从数据库视角解读大数据的研究进展与趋势
李战怀 王国仁 周傲英
摘要:“大数据”是2012年排名第二的热词,本文试图从数据库研究者的视角来解读大数据,说明“大数据”这个概念的诞生、内涵和外延以及它和传统数据库的关系。将在现今语境下重新审视“数据库研究”,即如何理解“数据库”这个概念以及数据库研究的本质问题。还将讨论Hadoop与大数据的关系,“数据库研究”和“大数据研究”的关系。通过回顾Hadoop的起源和发展,从数据处理的角度说明Hadoop发展的偶然性和必然性,以及它所处的地位。基本观点是:“大数据”是个笼统的概念,对其进行分类有助于深入理解;大数据研究的显著特征是它与应用密切相关;Hadoop是数据管理研究回到文件系统这一原点后的一个有益探索;“大数据”和传统的数据库在研究理念和方法学上是一脉相承的。
关键词:大数据;数据库;Hadoop
总结:1、大数据的概述。介绍大数据的概念、分类与特征。
2、与大数据相关的热点问题。主要有:非结构化数据与大数据、云计算与大数据、NOSQL与大数据、Hadoop与大数据。
3、从数据库角度看大数据研究进展与趋势。首先,提出数据库的三大成就:四十多年来,数据库领域具有里程碑意义的三大事件分别是关系数据模型的提出、查询处理和优化技术的发展、事务管理技术的进步。其次,指出数据库技术面临的挑战。再次,说明大数据研究的问题与难点。大数据的基础研究主要包括:(1)大数据分类学;(2)大数据全生命周期管理;(3)大数据质量管理。大数据研究的主要技术难点包括:(1)大数据语义建模;(2)大数据分析功能/性能均衡;(3)支撑大数据处理的硬件/存储体系结构。最后,指出当前大数据的示范应用主要包括:(1)社交媒体数据分析;(2)互联网广告;(3)基于位置的服务;(4)实时商务智能。
(出处:《计算机工程与科学》第35卷第10期)