百度抛出海量数据包，大数据竞赛众极客变身“-杭州商务调查公司

同时要将大量的线索进行梳理、归纳、推导，最终得到表象下隐藏的秘密！而这一切与极客有何关联？两个看上去全无交集的群体，因为这样一场竞赛盛世扯上了千丝万缕的关系。

10月16日，百度、西安交通大学联合推出的“大数据竞赛”在西安交大圆满落幕，本次赛事吸引了全国数十所一流大学的近900位选手组队参赛，经过5个月的激烈比拼，冠军团队最终凭借其精准清晰的程序结构以及优质完整的算法，经过评审成功摘得桂冠。亚、季军则由六支不同高校的参赛团队选手摘得。

而作为这次竞赛的题目设置，也让人感觉到花足了心思。通过给出50位明星和十亿与之相关的语料，由选手从这些语料中挖掘出这50个明星的人物立方关系。这次比赛题目选择了真实的数据、实际的问题，想要完成竞赛，需要涉及到数据建模、数据挖掘、机器学习诸多领域等方面的知识……如此高的技术要求在国内外的同类赛事当中也不多见！也让近900位参赛选手，过了一把“侦探”瘾！

十亿条语料是一个什么概念呢？我们假设一个人每天阅读20页A4纸的内容，粗略估算一页A4纸字数为1000字，1000*20*365=7300000字，按照平均每句语料15个字计算，是150亿字。那么一个人需要2650年，才可以阅读完全部语料。而我们的参赛选手通过借助于“自然语言识别”和“提取三元组”两个技术，则可以在每一次搜索过后，为我们挖掘出更多相关联的隐藏信息！基于大数据的原材料，不仅仅局限于文本，还可以是网页。而这次选择用知识挖掘做赛题也是一个非常重要的考量，利用知识挖掘构建知识图谱，有了知识图谱就可以进一步应用到搜索结果上，例如机器对于问题得精准回答与更多可能性。

我们来举一个例子，例如我们输入诺一是谁，系统会给出，诺一的爸爸是刘烨，刘烨的前女友是谢娜，谢娜是快乐大本营的主持人，何炅是谢娜的搭档……等一系列相关联的结果。现阶段，图谱产品的主要用途还是满足人类对于信息类的需求，而百度正在探索如何基于知识图谱可以把各种服务连接起来，怎么可以能够通过基于大数据的知识图谱技术让人们可以更加平等便捷地获取信息，找到所求。从某种意义上说，极客“侦探”时代的开启，给万千痴迷于变成、开发的爱好者提供了千载难逢的机会和时下最为优越、开阔的交流平台。

作为中国聚合互联网信息最多的平台，百度始终致力于开发大数据的更大价值。大数据的创新应用将促进各个行业升级，改变生活；在搜索领域，知识实体间错综复杂的关系正在被知识图谱破解。百度根据网民需求推出知识图谱,同时通过校企合作办赛的方式，深入挖掘大数据领域人才，将为在未来为构建三维知识网络打下优质的基础。想要了解更多精彩内容，请点击

公司新闻

百度抛出海量数据包，大数据竞赛众极客变身“

新闻中心

新闻中心

联系我们