共2 条记录, 每页显示 10 条, 页签: [1]

标题：[转帖]教机器学习摘要

1楼

admin 发表于：2016/6/27 13:14:59

http://mp.weixin.qq.com/s?__biz=MzA4OTk5OTQzMg==&mid=2449231209&idx=1&sn=6a569dc799be71818bd7414e0a4d61a4&scene=23&srcid=0627o28YoO6OqCrcojgbTRfT#rd

2楼

admin 发表于：2016/6/27 13:15:30

这里的语料分为两种，一种是用来训练深度学习模型的大型语料，一种是用来参加评测的小型语料。

1、DUC http://duc.nist.gov/
这个网站提供了文本摘要的比赛，2001-2007年在这个网站，2008年开始换到这个网站TAC http://www.nist.gov/tac/。很官方的比赛，各大文本摘要系统都会在这里较量一番，一决高下。这里提供的数据集都是小型数据集，用来评测模型的。

2、Gigaword https://catalog.ldc.upenn.edu/LDC2003T05
该语料非常大，大概有950w篇新闻文章，数据集用headline来做summary，即输出文本，用first sentence来做input，即输入文本，属于单句摘要的数据集。

3、CNN/Daily Mail
该语料就是我们在机器阅读理解中用到的语料，该数据集属于多句摘要。

4、Large Scale Chinese Short Text Summarization Dataset（LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html）[6]
这是一个中文短文本摘要数据集，数据采集自新浪微博，给研究中文摘要的童鞋们带来了福利。

共2 条记录, 每页显示 10 条, 页签: [1]