以文本方式查看主题

-  课外天地 李树青  (http://njcie.com/bbs/index.asp)
--  信息检索原理课件  (http://njcie.com/bbs/list.asp?boardid=16)
----  [转帖]雅虎公开 13.5TB 用户浏览数据,以助推机器学习研究  (http://njcie.com/bbs/dispbbs.asp?boardid=16&id=1625)

--  作者:admin
--  发布时间:2016/1/16 18:40:04
--  [转帖]雅虎公开 13.5TB 用户浏览数据,以助推机器学习研究

http://tech2ipo.com/10027039.html?site=toutiao

 

雅虎今天宣称将在 Webscope 项目主页公开网站大规模用户行为的历史数据,该数据包含用户阅读网站新闻和财经信息时的多种行为指标。以推动机器学习在基础科研领域的发展。

这不是雅虎第一次公开其自有的用户行为数据,在此之前 Webscope 网站就曾 56 此公开过各种网站数据。包括广告、图像、社交和评级等方面的数据。本次公开的数据包含 2000 万用户在 2015 年四个月份期间,在雅虎网站的行为记录,其中包括用户访问网站时使用的设备、文章主题、页面停留时间,以及用户的地区、年龄(如果有)和性别。这些信息都通过匿名处理。

这个数据最吸引人之处在与规模及其庞大,达到 13.5TB,可能是目前公开的最大规模的机器学习资料,在此之前网上公开的体积最大的只有 1TB。

雅虎方面提供了其中 100 行的数据样例,其中用户浏览的内容包罗万象,文章标题包括股票、校园、运动、时政、名人以及其他随机的内容。

该数据让加利福利亚大学圣地亚哥分校电子和计算机工程的教授 Gert Lanckriet 非常兴奋,「为什么我这么兴奋?因为我认为学界和产业界的合作对于研究、设计、开发国家最领先的人工智能,对于机器学习技术的发展都至关重要。」

当然,雅虎每天都会生成大量的用户数据,雅虎个性化科学和研究部门总监 Suju Rajan 认为,对于雅虎这样的公司,通常都要处理 1000TB 级别的用户行为数据,但是这种数据对于个人而言用处都不是很大,因为即便 13.5TB 的数据量,部署并利用起来都不那么简单。

「尽管很多人都没条件使用这些数据,但是我们还是觉得这种方式能够推动科研的发展」。雅虎研究实验室的副总 Ricardo Baeza-Yates 说道。