应用错误收集

理想情况下，it is said that the more you train your data, the 'better' your results只是在你测试它并将其与你准备好的真实结果进行比较后才取决于它。

因此，要回答您的问题，使用关键字训练模型可能会给您过于宽泛的结果，而这些结果可能不是参数。但实际上，你必须将它与某些东西进行比较，所以我建议你也可能想要用一些参数似乎遵循的句子结构来训练你的模型（某种模式），它可能会消除那些不是参数的句子。再次，执行此操作然后对其进行测试，以确定您是否获得比先前模型更高的精度。

回答您的下一个问题：在文本分类准确性和检索时间方面，哪种方法最好？这实际上取决于您使用的数据，我无法真正回答这个问题，因为您必须执行交叉验证以确定您的模型是否达到了高精度。显然，您正在寻找的功能越多，您的学习算法的性能就越差。如果你正在处理要分析的千兆字节文本，我建议使用Mapreduce来完成这项工作。

您可能希望查看SVM作为您的学习模型，使用学习模型（天真的贝叶斯，正面朴素贝叶斯和决策树）进行测试，看看哪个表现更好。

希望这会有所帮助。

python中的文本分类 - （基于NLTK句子）

1 个答案: