我正在做一个新闻分类项目。基本上,该系统将基于预定义的主题(例如,体育,政治,国际)对新闻文章进行分类。为了构建系统,我需要免费的数据集来训练系统。
到目前为止,经过几个小时的Google搜索和来自here的链接后,我能找到的唯一合适的数据集是this。虽然这很有希望,但我想我会尝试找到更多。
请注意我想要的数据集:
任何人都可以帮助我吗?
答案 0 :(得分:1)
您是否尝试过使用Reuters21578?它是文本分类最常用的数据集。它是用SGML格式化的,但解析和转换为txt格式非常简单。
答案 1 :(得分:0)
您可以构建它,您可以编写一个Python / Perl / PHP脚本来运行搜索,然后当您找到答案时,您可以使用正则表达式隔离属性...我认为这是最佳选择。不容易,但应该很有趣,最后你可以与我们分享这个数据集。