20个新闻组数据集中每个功能的含义/单词是什么?

时间:2014-12-03 03:40:47

标签: machine-learning classification newsgroup

我想使用20个新闻组数据集来测试算法,并分析每个组的重要单词。

University of Toronto提供的网站中。但我无法找到该数据集的对应词汇表文件。那么还有其他人可以给我一个亮点吗?

1 个答案:

答案 0 :(得分:0)

您可以尝试here获取20个新闻组数据集。它还包括一个词汇表文件,但它可能与您拥有的文件不一致,因此它可能有助于使用那里的所有文件。

希望这有帮助!