python - 文档分类问题的数据集 - Thinbug

文档分类问题的数据集

时间：2019-05-19 13:27:48

标签： python scikit-learn nltk text-classification

我正在做一个项目，以制作一个可以将pdf和docx文档作为输入并将其分类为各种类别的应用程序，例如 - 金融 -政府与政治 -体育和娱乐 -科技 -敏感（个人和政府）但是我找不到足够的数据来训练ML模型。

您能指出我一些可以在我的项目中使用的数据集的地方吗？我目前只有BBC新闻数据集。如果数据集为.txt格式，或者可以通过某些代码或软件转换为.txt的格式，则更合适。

0 个答案:

没有答案