刘德寰 李雪莲
摘要:大数据”无疑是当下的热门术语,提及数据分析必谈大数据,这是对大数据和数据分析的双重误解,面对一个流行概念本身所许诺的前景和它所代表的商业利益,学界应保持高度的真诚和怀疑。本文结合作者多年的数据分析经验,就大数据面临的风险和现存问题做一个说明,并希望从大数据本身的特性出发讨论它对业界和科学研究的影响,希望能引发更多思考和讨论。
关键词:大数据 数据分析 风险 现存问题
总结:大数据的面临的风险主要表现在以下几方面:(1)海量数据的计算速度。在现有的技术条件下谈大数据需要充分考虑到硬件设施和分析技术的不足。(2)海量数据带来的风险是处处都是假规律。海量数据的计算并不是大数据的最大风险,大数据最为严重的风险存在于数据分析层面。数据量的增大,会带来规律的丧失和严重失真;抽样分析+全数据验证的分析思路,没有抽样的拟合,直接面对大数据,将使我们失去对人的了解,对真实规律的追寻。(3)封闭数据与断裂数据。封闭数据使数据缺乏多样化;断裂数据使数据缺乏结构化。(4)缺失数据。随着数据量的扩大,缺失数据产生的比例也会相应扩大,尤其当一个样本中出现多项缺失时,会加大处理的难度,除了构造模型失之准确之外,还有时间复杂度方面的问题。固然缺失数据可以尝试通过模糊数据集理论得到解决,但许多研究情境对数据的要求是有确定性的。大数据时代需要的不只是全数据、海量数据、实时数据,而是真正的开放、更可能接近精确、着眼于人和社会的分析方法和思路。
(出处:《广告大观》2013年第3期)