以文本方式查看主题

-  课外天地 李树青  (http://njcie.com/bbs/index.asp)
--  信息检索原理课件  (http://njcie.com/bbs/list.asp?boardid=16)
----  [转帖]AI学术搜索入场,微软学术搜索回归  (http://njcie.com/bbs/dispbbs.asp?boardid=16&id=1772)

--  作者:admin
--  发布时间:2016/11/23 10:38:28
--  [转帖]AI学术搜索入场,微软学术搜索回归

语义学术(Semantic Scholar)规模扩大两倍,微软学术(Microsoft Academic)回归令人惊艳。

    

“语义学术”是一个立志超越谷歌学术的AI驱动型免费学术搜索引擎。2016年11月11日,其创始人宣布语义学术正在扩大论文语料库,目标是覆盖约1000万篇计算机科学和神经科学领域的研究论文。自语义学术去年上线以来,已有其它多款AI驱动的学术搜索引擎陆续问世,其中最著名的当属计算巨头微软重新推出的微软学术。


语义学术的开发者是西雅图的艾伦人工智能研究所(AI2),一个非营利机构,其新版日前在美国神经科学学会年会上亮相。一些有机会先睹为快的科学家对此深感震撼。“这将改变游戏规则,”斯坦福大学神经生物学家Andrew Huberman说。“它能指引你穿越原本盘根错节、眼花缭乱的信息丛林。”


这款搜索引擎问世于2015年11月,希望能根据论文内容和背景的准确理解来分类和排序学术论文。广受欢迎的谷歌学术包含了约2亿篇文档,还能扫描付费文章,但它只根据关键词搜索论文。语义学术与之不同,举例来说,语义学术能评估论文的哪些引用最有意义,还能根据被引次数的上升速度(一种衡量论文“热度”的指标)来给论文排序。


在上线之初,语义学术仅覆盖了计算机科学领域内的300万篇论文。目前,该站点已添加了数百万篇论文,并新增了专门针对神经学和医学领域的筛选机制——这在一定程度上得益于AI2与其姐妹机构艾伦脑科学研究所的合作。这些筛选机制支持的搜索方式包括论文研究的脑区、细胞类型、模式生物,以及研究方法论。Oren Etzioni表示,AI2计划在明年收录PubMed的全部论文,并扩展至所有医学领域。


“我最常用的仍是谷歌学术,”Jose Manuel Gómez-Pérez说,他在一家位于马德里的软件公司Expert System负责语义搜索方面的工作。“但这个领域的潜力十分巨大。”


微软的回归


 

但语义学术并不是市面上唯一一个AI驱动型搜索引擎。今年五月,计算机巨头微软低调发布了自己的AI学术搜索工具——微软学术(Microsoft Academic),取代其前身微软学术搜索(Microsoft Academic Search)。微软在2012年停止了对微软学术搜索的更新。


研究人员可通过应用程序接口(API)和开放学术社区(Open Academic Society,微软研究院、AI2与其它机构共同创办的一个合作项目)获取微软的学术搜索算法与数据。“参与的人越多越好,”微软方面负责人Kuansan Wang说。


他还表示,语义学术深入探索的是自然语言处理,即理解论文和查询中的完整语句的含义,而微软学术是由必应(微软的网络搜索引擎)的语义搜索功能提供支持的,且覆盖面更广,包含多达1.6亿篇出版物。


和语义学术一样,微软学术提供了实用(但范围或许没那么广泛)的筛选机制,包括作者、期刊和研究领域,还编制了各分支学科最具影响力科学家的排行榜。这些科学家是在各自领域内拥有最“重要”的出版记录的人,使用递归算法(可免费获取)评出:如果一篇论文被其它重要论文引用,就会被评为重要。微软学术的数据显示,过去六个月来,排名最高的神经科学家是美国明尼苏达州梅奥诊所的Clifford Jack。


其他学者对微软的努力大加赞赏。在分析微软的新产品后,英国密德萨斯大学的科学计量学研究者Anne-Wil Harzing表示,微软学术正在接近将谷歌学术和订阅型文献计量数据库,比如Scopus和Web of Science的优势集于一身;前者拥有广阔的覆盖面,后者则能提供更结构化的搜索结果。“毫无疑问,微软学术的羽翼正在日渐丰满,”她说。微软研究院表示,他们目前正在研发可个性化订制的版本,预计将于明年初推出——用户注册后,微软便能提醒他/她关注相关的新论文,或者告知研究者自己论文的被引次数。


其它公司和学术机构也在开发AI驱动型软件,以进一步深挖线上内容。例如,德国马克斯·普朗克计算机科学研究所正在开发一款名为DeepLife的搜索引擎,专门面向健康与生命科学领域。Etzioni说:“这些项目都是研究模型,而不是可持续的长期项目。”


从长远来看,AI2致力于创建的是一个可以回答科学问题、提出新实验设计或有用假设的系统。Etzioni说:“在20年内,AI将能够阅读——更重要的是,理解——科学文本。”