培训和测试分类文本文件的数据集

时间:2015-10-26 15:29:15

标签: machine-learning naivebayes

假设我们有10000个文本文件,我们想分类为政治,健康,天气,体育,科学,教育,......... 我需要训练数据集来分类文本文档,我是朴素贝叶斯分类算法。任何人都可以帮助获取数据集。 要么 还有其他办法让分类完成。我是机器学习的新手请完整解释你的答案。

示例:

     **Sentence**                                         **Output**
1)奥巴马赢得选举。 ----------------------------------------------->政治

2)印度以10个小门赢了---------------------------------------- ------>运动

3)烟草更危险----------------------------------------- ---->健康

4)牛顿运动定律可以应用于汽车-------------->科学

将这些句子分类为各自类别的任何方式

1 个答案:

答案 0 :(得分:1)

你试过google吗?有大量的数据集用于文本分类。经典的一个是Reuters-21578(https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection),另一个着名的,在每本ML书中几乎提到20个新闻组:http://web.ist.utl.pt/acardoso/datasets/

但是还有很多其他的,一个谷歌查询远离你。只需加载它们,根据需要稍微调整一下,然后在数据集上训练分类器。