应用错误收集

时间：2017-01-05 10:35:13

标签： python python-2.7 nltk

Python的NLTK工具包是否会为每次迭代返回不同的结果：

1）标记化

2）POS标记？

我正在使用NLTK来标记大文本文件。标记化的元组列表每次都有不同的大小。这是为什么？

答案 0 :(得分：0)

不要在任何迭代循环中修改它们的逻辑或计算。

在NLTK中，默认情况下，标记化是基于规则的，使用正则表达式从句子中分割标记

默认情况下，POS标记使用经过训练的英语模型，因此每个标记为给定的训练模型提供相同的POS标记。如果再次训练该模型，它将会改变。

因此，您问题的基本答案是no

答案 1 :(得分：0)

标记器和标记器都是确定性的。虽然迭代Python字典可能会在程序的每次执行中以不同的顺序返回结果，但这不会影响标记化 - 因此标记的数量（标记的或不标记的）不应该变化。您的代码还有其他问题。