python中的文本分类 - (基于NLTK句子)

时间:2014-04-20 04:01:28

标签: python python-3.x machine-learning classification bayesian

我需要对文本进行分类,我正在使用Text blob python模块来实现它。我可以使用朴素贝叶斯分类器/决策树。我担心下面提到的几点。

1)我需要将句子分类为参数/不是参数。我使用两个分类器并使用apt数据集训练模型。我的问题是关于我是否需要仅使用关键字训练模型?或者我可以用所有可能的论证和非论证样本句子训练数据集?在文本分类准确性和检索时间方面哪种方法最好?

2)由于分类是参数/不是参数,哪个分类器可以获取精确的结果?它是朴素贝叶斯/决策树/积极朴素的贝叶斯?

提前致谢。

1 个答案:

答案 0 :(得分:1)

理想情况下,it is said that the more you train your data, the 'better' your results只是在你测试它并将其与你准备好的真实结果进行比较后才取决于它。

因此,要回答您的问题,使用关键字训练模型可能会给您过于宽泛的结果,而这些结果可能不是参数。但实际上,你必须将它与某些东西进行比较,所以我建议你也可能想要用一些参数似乎遵循的句子结构来训练你的模型(某种模式),它可能会消除那些不是参数的句子。再次,执行此操作然后对其进行测试,以确定您是否获得比先前模型更高的精度。

回答您的下一个问题:在文本分类准确性和检索时间方面,哪种方法最好?这实际上取决于您使用的数据,我无法真正回答这个问题,因为您必须执行交叉验证以确定您的模型是否达到了高精度。显然,您正在寻找的功能越多,您的学习算法的性能就越差。如果你正在处理要分析的千兆字节文本,我建议使用Mapreduce来完成这项工作。

您可能希望查看SVM作为您的学习模型,使用学习模型(天真的贝叶斯,正面朴素贝叶斯和决策树)进行测试,看看哪个表现更好。

希望这会有所帮助。