课外天地 李树青学习天地信息检索原理课件 → [转帖]教机器学习摘要


  共有23006人关注过本帖树形打印复制链接

主题:[转帖]教机器学习摘要

帅哥哟,离线,有人找我吗?
admin
  1楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1949 积分:26803 威望:0 精华:34 注册:2003/12/30 16:34:32
[转帖]教机器学习摘要  发帖心情 Post By:2016/6/27 13:14:59 [只看该作者]


 回到顶部
帅哥哟,离线,有人找我吗?
admin
  2楼 博客 | 信息 | 搜索 | 邮箱 | 主页 | UC


加好友 发短信 管理员
等级:管理员 帖子:1949 积分:26803 威望:0 精华:34 注册:2003/12/30 16:34:32
摘要语料库  发帖心情 Post By:2016/6/27 13:15:30 [只看该作者]

这里的语料分为两种,一种是用来训练深度学习模型的大型语料,一种是用来参加评测的小型语料。

1、DUC http://duc.nist.gov/
这个网站提供了文本摘要的比赛,2001-2007年在这个网站,2008年开始换到这个网站TAC http://www.nist.gov/tac/。很官方的比赛,各大文本摘要系统都会在这里较量一番,一决高下。这里提供的数据集都是小型数据集,用来评测模型的。

2、Gigaword https://catalog.ldc.upenn.edu/LDC2003T05
该语料非常大,大概有950w篇新闻文章,数据集用headline来做summary,即输出文本,用first sentence来做input,即输入文本,属于单句摘要的数据集。

3、CNN/Daily Mail
该语料就是我们在机器阅读理解中用到的语料,该数据集属于多句摘要。

4、Large Scale Chinese Short Text Summarization Dataset(LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html)[6]
这是一个中文短文本摘要数据集,数据采集自新浪微博,给研究中文摘要的童鞋们带来了福利。


 回到顶部