大数据及在当代互联网应用中的研究
摘要:据Gartner研宄表明,每天我们要产生2.5QB的数据,而在目前全世界的所有的数据中,90%的数据是近2年内产生的。这些数据来之与各个不同的地方,例如传感器收集到的天气的数据,在社交媒体网站上的帖子,数码相片和录像,购物产生的交易数据甚至手机GPS的信号产生的地理数据。那么这些数据就是所谓的大数据。
随着全球的企业,政府组织开始认识到大数据的重要性,由机器传感器或者移动设备产生的数据以一个巨大的比例膨胀。有关机构预测在接下来的五年当中,这样的数据会增长超过650%,而这些数据大多都是机器和传感器产生的非结构化的数据。Gartner预测到了 2015年,由于业务分析的需要,70%的投资会花在对企业IT信息架构的扩展和标准化,包括对服务器,存储架构,应用软件及服务的需求上面。
如今大数据的影响力已经从企业,医疗扩散到了家庭宽带的设置和链接设备上。随着近几年来,互联网服务的飞速发展,国内的互联网三大巨头,百度,腾讯,阿里从好几年前就开始引入了大数据进行互联网业务决策。
关键词:大数据,数据仓库,数据精简,时间戳,用户行为模式
总结:文章主要研究了以下几个内容:
1.重新分析大数据的现状和定义,深入了解何为大数据以及如今行业和市场对大数据的理解,再分析了大数据的多个研究方向,更好的了解大数据本身。
2.分析大数据普及的现状,阐述了如何对大数据的庞大数据集进行瘦身以及展望大数据市场未来发展的情况。
3.从本人工作所涉及到的电子商务大数据预测的情况出发,对基于时间戳的网页点击数据进行预处理和分析,从而可以对业务进行更准确的预测。
4.从目前流行的互联网在线社区获取数据,获取通过用户的属性,发现用户的典型行为模式,并且将用户分组,给互联网在线社区提供商进行决策依据。
Abstract:Report of Gartner shows, we create 2.5 QB data every day,and all the data around the world, 90% of it was created in these 2 years. These data came from different places such as the weather data from the sensors, the blog articles from the online social websites,the pictures and videos from the digital cameras, the transition data from the purchase actions, even the GPS date from the mobile phone signal. The amount of these data, we can call this ‘big data’.
More and more companies, government organizations realize the importance of the big data. And the data size generated from machine sensor or mobile device explode with high speed. And relative organization predict the this data size will growth more than 650% in the future 5 years, while these data is mostly unstructured data . Gartner report predicts, to 2015,70% of firm investment will spend on the IT information architecture for business analysis request.
And now the day, the effect of big data is not just on the company or healthcare, it spread to the family LAN or link device. With the fast development of the internet services, the three biggest internet company in China, Baidu, Tencent and Alibaba had put their business decision system on the big data analyze system.
Key words:Big data, data warehouse^ data optimize9 timestamp, user behavior model
(林荣耀 人工智能专业 厦门大学硕士学位论文)