大数据引擎:挖掘冰山下的金矿
时间:2014-06-18 17:28:31  来源:  作者:simyjs  点击量:



摘要:当前,大数据这个话题如日中天。在第六届中国云计算大会上,百度技术委员会理事长陈尚义作了“百度大数据引擎”的主题演讲。期间,他提出数据的产生是为了获取其第一价值,大数据技术将能挖掘出第二、第三价值。



现在随着移动互联网、物联网的发展,数据无时不刻不在产生。包括个人用户的手机、可穿戴设备等;也包括行业应用的传感器、监控摄像头等信息。数字化将物理世界的模拟信息转化为数字信息,数字世界与现实世界的融合过程中产生和积累了大量的数据。全球所有信息数据中90%产生于过去两年。2013年每天全球产生25PB数据,相当于1500个国家图书馆信息量的总和。全球的数据总量从2003年的5EB,快速增长到2012年2.7ZB,并将于2020年达到40ZB。这些数据往往被人们比作海上漂浮着的冰山,因其巨大的价值隐藏在水面以下。



 



如陈尚义在大会上所讲,任何数据的产生都有其最初的目的,这就是它们的第一价值,当这些数据迅速积累起来,它们将能产生第二、第三价值。这背后就需要有效的技术来发现、挖掘。比如网上相册,其第一价值在于为网民提供存储服务。照片多起来后,我们就可以从中发现当时的流行色,甚至可以预测以后的流行趋势。再例如,可穿戴设备可以24小时监控我们的身体,它的第一价值是记录自己的身体状况,用句时髦的话说,就是“量化自我”。但如果能将一段较长时间的数据综合分析,我们可能发现健康的情况,并为我们提供预警。



大数据的两个重要特点:数据量大,增速快。根据麦肯锡的报告,到2020年医疗数据将急剧增长到35ZB,相当于2009年数据量的99倍。根据交通部的数据,某省高速公路视频监控数据每天50T。这些数据的产生也有其第一价值。如医疗数据是为了患者就诊,视频监控数据是为了事后的追溯。当他们的第一价值被利用之后,这些数据一般就被束之高阁。逐渐,这些数据成为了行业的负担。但事实上,这些数据仍然有宝贵的价值。如何发现这数据隐藏的价值,成为了行业的难题之一。



在面对自己的数据冰山中的价值,各行业对数据价值的挖掘做出了一些实际行动。陈尚义在演讲中总结出企业实践中存在的一些误区。许多传统行业仍然局限在小数据的开发和利用,将小数据当成大数据,未涉及全面、完整和系统的大数据本质。将传统的数据处理手段和技术当成大数据技术,未有大数据时代带来的新特征。这时候,传统行业需要看清大数据的特点,开发新的工具和新的平台,满足数据规模大、结构复杂和高速膨胀的需求。所以,传统行业亟需大数据技术和能力挖掘行业数据的新价值。



百度是如何挖掘其数据冰山下的价值金矿呢?陈尚义举了几个很有趣的例子。作为搜索引擎起家的百度,将人与信息连接起来,天然就是一个大数据公司。首先作为搜索引擎,百度需要收集互联网上的数据。为了方便人们检索信息而被存储下来的大量文本、图片、影音等不同结构的数据。像以前我们搜索某个关键词,结果出来的都是一个个单调的链接。想要查相关视频,还得另外搜索。现在,百度利用自己的数据挖掘及人工智能技术将这些不同类型的网络数据关联起来,于是产生了一种叫“知识图谱”的结果。比如现在用百度搜索“中国好声音”,结果出现的不仅仅是对这个节目的描述,还有歌手、歌曲、类似节目等结果。同样的一次搜索,带来的却是各种形式的信息展示,这让笔者眼前一亮。



同时,用户的搜索行为也会留下信息,百度再将它们进行大数据的关联分析,为人群画像,发现人群的兴趣点、特征等新的信息,反过来又可以从上千万条推广中为我们网民找到最相关的信息。这就是百度司南。它使得广告投放结果与用户搜索关键字之间具有相关性,广告投放商在百度投放的广告更有效。对于未来,百度还利用自己的人工智能技术推出了 百度预测,有旅游城市、景点热度的预测,还有高考专业、院校的预测等。笔者在网站上看到了百度的世界杯预测结果――巴西夺冠,让我们拭目以待吧。



百度利用技术掀起了冰山,挖掘出了大数据资源中的金矿。最后陈尚义讲,如今,大数据的发展已经进入到全新的数据挖掘阶段。百度将这些大数据技术打包成为“ 百度大数据引擎”,开放为给行业社会。帮助传统行业根据大数据的特点,利用大数据引擎的平台,挖掘行业数据的新价值,助力产业升级。



13级博士班万莉供稿 原文链接:http://www.csdn.net/article/2014-05-30/2820037






 

最近更新

点击排行