大数据及其科学问题与方法的探讨
何非 何克清
摘要:大数据的规模和复杂度的增长超出了计算机软硬件能力增长的摩尔定律,对现有的IT架构以及计算能力带来了极大挑战,也为人们深度挖掘和充分利用大数据的大价值带来了巨大机遇。因此,针对网络大数据的共性规律和科学问题,需要研究网络大数据定性定量分析的基础理论与方法。本文重点分析了大数据在数据关联上的复杂性、计算复杂性、系统的复杂性、学习复杂性四个方面的主要研究问题和现状,介绍小结了产业界具有代表性的实际应用IT基础架构,以形成从网络大数据的感知、挖掘获取、质量评估、数据提炼处理到融合表示的综合过程图景,最后对大数据科学、数据计算需要的新模式与新范式(第四范式)等方面的发展趋势和方向进行了展望探讨。
关键词:大数据;科学问题;科学方法;第四范式;本体元建模
总结:1、大数据的应用价值。(1)感知现在。即面向领域或主题的历史数据与当前数据的融合,是对潜在线索与模式的挖掘、对事件群体与社会发展状态的感知。(2)预测未来。即针对全量数据、流式数据、主题离线数据的关联分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测。(3)面向服务。现在的社会是建立在多样化的异构网络(如互联网、电信网、广播电视网、物联网等)上的、并基于这些网络提供多样化多层次的社会服务(诸如医疗、物流、旅游、交通、饮食、教育、电子政务等现代服务业),而需求尤其是个性化的需求则是驱动这些服务运转的主要动力。
2、大数据的科学问题思考。文章集中论述了四个主要的科学问题:数据复杂性、数据计算复杂性、数据处理系统复杂性和基于数据的学习复杂。
3、大数据科研第四范式的本体元建模方法,即以大数据为基础的数据密集型科研发现时代数据科研建模方法。文章中重点分析了大数据主题知识构建的本体元建模方法和大数据关联计算的本体元建模方法。
(出处:《武汉大学学报(理学版)》2014年2月第60卷第1期)