大数据时代对统计学的挑战
邱东
摘要:本文首先探讨了面对大数据潮流应持有的科学态度,然后从大数据能否淹没整个世界、信息与噪声能够泾渭分明吗、统计学与数据科学究竟是什么关系、大数据潮流对统计学究竟产生了什么样的影响等四个方面论述了大数据对统计学的挑战。
关键词:大数据;信息;噪声;数据科学; 统计学
总结:1、大数据不可能淹没整个世界。理由如下:(1)互联网外还有大鱼。大数据在不同国家和地区的实现程度是大不相同的。人类社会并不会同步进入大数据时代,“整个世界可能被割裂成大数据时代、小数据时代和物数据时代” 同一个地球,却是三种时代并存。(2)数据再大也是相对的。(3)“道魔博弈”是动态无尽的。科学技术再强大,也始终处于不断改进之中,相对于所要解决的问题而言,科学技术总是不完善的。
2、信息与噪声的辩证关系。(1)信息与噪声的“一体性”。在科学领域,很少看到所有数据都集中到一个明确的结论上的情况,真正的数据非常噪杂。数据
就在那里,信息和噪声同时空存在。(2)信息和噪声的“对象相对性”。原本有用的、待用的信息,可是接受者没有能力在适当的时间里接受和消化,甚至成为接受其他更有用信息的负担,此信息对该接受者而言实质上处于噪声状态。(3)信息公布的广度与其价值可能存在逆相关关系。对多数人都可轻易得到的信息,其信息价值往往不大。(4)部分信息的价值具有时效性。信息获取时间的先后与其价值大小可能存在正相关关系。(5)信息获取量的边际效用递减关系。如果发送信息的频率过高,获取持续时间过长,信息接受者就会产生审美疲劳,所得到信息的边际效用将从大变小,甚至为负,转变为噪声。
3、统计学与数据科学。统计是一门数据科学,大数据时代数据科学特别重要,所以统计学特别重要,但不表示统计学是唯一的数据科学,是大数据时代唯一的重要。
4、大数据时代的统计重心转移。(1)统计数据处理比基础数据收集更为重要;统计设计环节的格外重要,总体上需要更注重不同阶段的衔接和反馈关系。(2)大数据时代,数据的识别问题更为重要。这意味着,现实与理论、方法间需要反复作用,实质性科学的主导更为重要。(3)虚拟信息的识别问题。(4)提防“数据独裁”。
(出处:《统计研究》2014年1月第31卷第1期)