标签: python scikit-learn nltk text-classification
我正在做一个项目,以制作一个可以将pdf和docx文档作为输入并将其分类为各种类别的应用程序,例如 - 金融 -政府与政治 -体育和娱乐 -科技 -敏感(个人和政府) 但是我找不到足够的数据来训练ML模型。
您能指出我一些可以在我的项目中使用的数据集的地方吗?我目前只有BBC新闻数据集。如果数据集为.txt格式,或者可以通过某些代码或软件转换为.txt的格式,则更合适。