大型分类文档语料库

时间:2015-08-27 10:17:58

标签: dataset classification corpus text-classification

有人能指出我用于分类的大型语料库吗?

但是,大概不是路透社或20个新闻组,我说的是GB大小的语料库,而不是20MB或类似的东西。

我只能找到这个路透社和20个新闻组,这对我需要的东西来说非常小。

1 个答案:

答案 0 :(得分:3)

用于文本分类评估的最流行的数据集是:

然而,上面的数据集并不符合“大型”数据集。需求。以下数据集可能符合您的条件:

  • Commoncrawl您可以通过提取元标记中具有特定关键字的文章并应用于文档分类来构建大型语料库。

  • Enron Email Dataset您可以在此处执行各种不同的分类任务。

  • Topic Annotated Enron Dataset。不是免费的,但已经标记并符合您的大型语料库请求

您可以浏览其他公开的datasets here

除了上述内容,您可能需要开发自己的语料库。我将在本周末晚些时候发布一个新闻语料库构建器,它将帮助您根据您选择的主题开发自定义语料库

更新

我创建了上面提到的自定义语料库构建器模块,但忘记将其链接News Corpus Builder