Rss & SiteMap

课外天地 李树青 http://www.njcie.com

李树青 论坛 南京 财经 课外天地
共2 条记录, 每页显示 10 条, 页签: [1]
[浏览完整版]

标题:[转帖]教机器学习摘要

1楼
admin 发表于:2016/6/27 13:14:59
http://mp.weixin.qq.com/s?__biz=MzA4OTk5OTQzMg==&mid=2449231209&idx=1&sn=6a569dc799be71818bd7414e0a4d61a4&scene=23&srcid=0627o28YoO6OqCrcojgbTRfT#rd
2楼
admin 发表于:2016/6/27 13:15:30

这里的语料分为两种,一种是用来训练深度学习模型的大型语料,一种是用来参加评测的小型语料。

1、DUC http://duc.nist.gov/
这个网站提供了文本摘要的比赛,2001-2007年在这个网站,2008年开始换到这个网站TAC http://www.nist.gov/tac/。很官方的比赛,各大文本摘要系统都会在这里较量一番,一决高下。这里提供的数据集都是小型数据集,用来评测模型的。

2、Gigaword https://catalog.ldc.upenn.edu/LDC2003T05
该语料非常大,大概有950w篇新闻文章,数据集用headline来做summary,即输出文本,用first sentence来做input,即输入文本,属于单句摘要的数据集。

3、CNN/Daily Mail
该语料就是我们在机器阅读理解中用到的语料,该数据集属于多句摘要。

4、Large Scale Chinese Short Text Summarization Dataset(LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html)[6]
这是一个中文短文本摘要数据集,数据采集自新浪微博,给研究中文摘要的童鞋们带来了福利。

共2 条记录, 每页显示 10 条, 页签: [1]

Copyright ©2002 - 2016 课外天地.Net
Powered By Dvbbs Version 8.3.0
Processed in .01563 s, 2 queries.