NLTK每次运行会返回不同的结果吗?

时间:2017-01-05 10:35:13

标签: python python-2.7 nltk

Python的NLTK工具包是否会为每次迭代返回不同的结果:

1)标记化

2)POS标记?

我正在使用NLTK来标记大文本文件。标记化的元组列表每次都有不同的大小。这是为什么?

2 个答案:

答案 0 :(得分:0)

不要在任何迭代循环中修改它们的逻辑或计算。

在NLTK中,默认情况下,标记化是基于规则的,使用正则表达式从句子中分割标记

默认情况下,POS标记使用经过训练的英语模型,因此每个标记为给定的训练模型提供相同的POS标记。如果再次训练该模型,它将会改变。

因此,您问题的基本答案是no

答案 1 :(得分:0)

标记器和标记器都是确定性的。虽然迭代Python字典可能会在程序的每次执行中以不同的顺序返回结果,但这不会影响标记化 - 因此标记的数量(标记的或不标记的)不应该变化。您的代码还有其他问题。