新闻文章数据集

时间:2011-11-18 14:48:13

标签: text dataset project document-classification

我正在做一个新闻分类项目。基本上,该系统将基于预定义的主题(例如,体育,政治,国际)对新闻文章进行分类。为了构建系统,我需要免费的数据集来训练系统。

到目前为止,经过几个小时的Google搜索和来自here的链接后,我能找到的唯一合适的数据集是this。虽然这很有希望,但我想我会尝试找到更多。

请注意我想要的数据集:

  1. 包含完整的新闻文章,而不仅仅是标题
  2. 是英文
  3. 以.txt格式,而不是XML或db
  4. 任何人都可以帮助我吗?

2 个答案:

答案 0 :(得分:1)

您是否尝试过使用Reuters21578?它是文本分类最常用的数据集。它是用SGML格式化的,但解析和转换为txt格式非常简单。

答案 1 :(得分:0)

您可以构建它,您可以编写一个Python / Perl / PHP脚本来运行搜索,然后当您找到答案时,您可以使用正则表达式隔离属性...我认为这是最佳选择。不容易,但应该很有趣,最后你可以与我们分享这个数据集。