想来有趣,在网上购物、订外卖、手机支付已成为很多人日常生活的一部分,可穿戴设备、智能家居设备等风头正旺的现在,我们每天的吃饭、睡觉、工作,甚至娱乐产生的“数据”都会通过某种手段被保留和集中起来。根据IBM调研的说法,人类每天生成的数据涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等,相当于从地球到月球的距离。
将这样量级的数据称为“大数据”可一点也不为过。最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”今天我们就来说说大数据。
大数据,不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。
答案显然是后者。大数据分析是用来发现相关性来创造价值的,而非探索因果关系进行科研。
据说,词源出自Alvin Toffler,上世纪70年代的作品《第三次浪潮》。
曾经人们以为最爱吃的派都是苹果派,不过当你有了更细致的数据,你会发现,苹果派受欢迎其实是一种妥协的结果:苹果派是每个人第二喜欢的口味。
拿到小尺寸派的数据以后你更发现,其实苹果派只能排到第四,第五位的样子了。
1、应用中的数据分析示例:
2、交通状况大数据分析示例:
《大数据时代》一书作者维克托认为大数据时代有三大转变:“第一,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不是依赖于随机采样。更高的精确性可使我们发现更多的细节。第二,研究数据如此之多,以至于我们不再热衷于追求精确度。适当忽略微观层面的精确度,将带来更好的洞察力和更大的商业利益。第三,不再热衷于寻找因果关系,而是事物之间的相关关系。例如,不去探究机票价格变动的原因,但是关注买机票的最佳时机。”大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,而大数据则使数据来源更加多样化,不仅包括企业内部数据,也包括企业外部数据,尤其是和消费者相关的数据
在今天这个信息爆炸的时代,我们不一定能让信使一定送来好消息,但你可以让我们的爬虫定时给你送来最有用最合你需求的信息。
对于大数据,麦肯锡全球研究所给出的定义是:
控股子公司山东光庭主要承接地方政府自然资源部门的信息化项目,目前该子公司业务收入占公司整体收入比例较小。光庭时空大数据基础平台是公司相关业务的底座平台,公司利用该平台进行数字乡村、自然资源综合监管等软件产品的开发。
陈国青,清华大学经济管理学院EMC讲席教授,学术委员会主任。2005年度受聘教育部长江学者特聘教授。陈国青教授曾获国际模糊系统协会2009年度“IFSA Fellow”;复旦管理学奖基金会2007年度“管理学杰出贡献奖”;1999年度国家杰出青年科学基金;全国百篇优秀博士论文指导教师等荣誉。主要研究与教学领域为商务智能与电子商务、IT战略与管理、模糊逻辑与数据模型。
EB(Exa Byte)— 艾字节,也就是1024PB
微博、天猫、淘宝、微信等等都直接产生了大量包括定位、消息记录、消费记录、评价、阅读等等殊为庞大的信息,可以说互联网企业都自然的带有数据企业的标签。不过如果我们从数据的源头看的更仔细一些,还是会发现,其实很多数据依然是有巨大的采集与归类的需求。