从何处获取预先标记的新闻文章以进行聚类算法

时间:2019-04-09 07:21:14

标签: text nlp cluster-analysis

我将要构建一个系统,该系统可以根据与之相关的事件对在线新闻数据进行聚类。为了检查结果是否正确,我需要一个带有大型主题标签的新闻数据集。对于我来说,手动标记它们似乎几乎是不可能的。因此,谁能分享一些建议,我如何掌握这种数据集呢?非常感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

20 Newsgroups是从新闻聚类,分类等开始的标准数据集。您可以将其用于实验。根据说明:

  

20个新闻组数据集是大约20,000个新闻组文档的集合,这些文档(几乎)均匀地分布在20个不同的新闻组中。据我所知,它最初是由Ken Lang收集的,可能是因为他的Newsweeder:学习过滤netnews论文,尽管他没有明确提及此收藏。 20个新闻组集合已成为用于机器学习技术的文本应用程序(例如文本分类和文本聚类)中的实验的流行数据集。