文本摘要的数据集链接?

时间:2013-02-19 13:47:46

标签: text dataset summarization

任何人都有像DUC 2007或TREC这样的文本摘要的数据集下载链接吗? 请帮我。

4 个答案:

答案 0 :(得分:2)

您可以使用http://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports进行基于提取的文本摘要方法。它包含catchPhrase,可以作为训练的选定句子。但是口号可能不那么合适。

答案 1 :(得分:1)

您可以在完成一些组织和个人协议后访问DUC数据集。请参阅http://www-nlpir.nist.gov/projects/duc/data.html以获取更多信息

答案 2 :(得分:0)

您可以在scrapy中编写一个站点地图抓取工具

这可能会给你大约145万个摘要和文章。

另外,您可以查看此harvardnlp sent summary数据集和CNN Dailymail数据集,这可以提供一些文章故事。

  

警告:由于所有这些都是不同的来源,他们的写作方式可能会有所不同。

答案 3 :(得分:0)

您可以尝试使用Kaggle提供的“ BBC新闻摘要”数据集:link

在内部,您将找到两个文件夹:带有原始文章及其摘要。新闻分为5类:商业,娱乐,政治,体育,科技。每个主题大约有500条文章摘要。