网络大数据:现状与展望
王元卓 靳小龙 程学旗
摘要:网络大数据是指“人、机、物”三元世界在网络空间中交互、融合所产生并在互联网上可获得的大数据。网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战。同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇。因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法。文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望。
关键词:大数据;网络大数据;网络空间感知;大数据存储;数据挖掘;社会计算
总结:1、网络大数据研究的意义。网络大数据研究的重要性体现在以下几个方面:(1)网络大数据的研究对捍卫国家网络空间的数字主权,维护社会稳定,推动社会与经济可持续发展有着独特的作用。(2)网络大数据是国民经济核心产业信息化升级的重要推动力量。(3)网络大数据在科学和技术上的突破,将可能诞生出数据服务、数据材料、数据制药等战略性新兴产业。(4)大数据引起了学术界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。
2、网络大数据带来的挑战。(1)网络大数据的复杂性。(2)网络大数据的不确定性。(3)网络大数据的涌现性。
3、网络空间感知与数据表示。网络数据的整个集成过程可分为数据获取、数据抽取和数据整合三个环节。对于海量文本数据的建模,我们需要模型能够对更大规模的参数空间进行有效地学习,需要能够有效地建模并解决数据的稀疏性所带来的问题,需要能够对动态演化的网络大数据进行合理的表达.此外,对于图片和多媒体数据,我们也需要进一步探索其建模与表达方式,以便能够更加有效地表达其内在的语义信息。
4、网络大数据存储与管理体系。详细介绍分布式数据存储、数据高效索引、数据世系管理这些方法以帮助解决如何降低数据存储成本、充分利用计算资源、提高系统并发吞吐率、支持分布式的非线性迭代算法优化等众多难题。
5、展望未来,面对网络大数据,以下几个方面的研究将是问题的核心:(1)网络大数据的复杂性度量(2)数据计算需要新模式与新范式(3)新型的IT基础架构(4)数据的安全和隐私问题
(出处:《计算机学报》2013年6月第36卷第6期)