大数据时代下数据质量的挑战
宗戚 吴锋
摘要:大数据是物联网数据感知、云计算数据计算、三网融合数据服务实现的核心基础。大数据时代的到来对企业存储和管理数据、从数据中提取有价值的信息提出了挑战。数据质量是有效分析和利用大数据的前提,是大数据产生跨区域、跨行业、跨部门价值的保障。为此,梳理了大数据的基本特征,结合中国当下企业发展现状及大数据在国内的发展态势,从流程、技术和管理视角讨论了大数据时代下企业保证数据质量的挑战、重要性及应对措施。
关键词:大数据;数据质量;数据生命周期;数据分析技术;数据管理
总结:1、大数据时代产生的必然。在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长。有调查显示,企业信息系统中拥有数万亿字节的客户信息、供应商信息以及业务运营信息,数据已经成为业务活动的副产品。由此得知,数字化已经成为社会发展的必然趋势。与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成长也越来越离不开大量数据的支持。
2、大数据特点。大数据区别于传统数据的主要特点有:数据量庞大;数据增长、变化快;数据多样性。
3、大数据环境下数据质量的重要性及挑战。文章重点从流程、技术和管理三方面来分析大数据环境下保证大数据质量的挑战及重要性。(1)流程视角。从流程角度,即从数据生命周期角度来看。在流程视角,文章从数据收集、数据存储和数据使用三个方面提出了对大数据质量的不同挑战。
(2)技术视角。技术视角主要是指从数据库技术、数据质量检测识别技术、数据分析技术的角度来研究保证大数据质量的挑战及其重要性。
(3)管理视角。管理视角主要探讨企业高层管理者、专业管理和技术分析人员对保证大数据质量的重要性。
(出处:《西安交通大学学报(社会科学版)》20139月第33卷第5期)