任何人都有像DUC 2007或TREC这样的文本摘要的数据集下载链接吗? 请帮我。
答案 0 :(得分:2)
您可以使用http://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports进行基于提取的文本摘要方法。它包含catchPhrase,可以作为训练的选定句子。但是口号可能不那么合适。
答案 1 :(得分:1)
您可以在完成一些组织和个人协议后访问DUC数据集。请参阅http://www-nlpir.nist.gov/projects/duc/data.html以获取更多信息
答案 2 :(得分:0)
您可以在scrapy中编写一个站点地图抓取工具
这可能会给你大约145万个摘要和文章。
另外,您可以查看此harvardnlp sent summary数据集和CNN Dailymail数据集,这可以提供一些文章故事。
警告:由于所有这些都是不同的来源,他们的写作方式可能会有所不同。
答案 3 :(得分:0)
您可以尝试使用Kaggle提供的“ BBC新闻摘要”数据集:link
在内部,您将找到两个文件夹:带有原始文章及其摘要。新闻分为5类:商业,娱乐,政治,体育,科技。每个主题大约有500条文章摘要。