Python的NLTK工具包是否会为每次迭代返回不同的结果:
1)标记化
2)POS标记?
我正在使用NLTK来标记大文本文件。标记化的元组列表每次都有不同的大小。这是为什么?
答案 0 :(得分:0)
不要在任何迭代循环中修改它们的逻辑或计算。
在NLTK中,默认情况下,标记化是基于规则的,使用正则表达式从句子中分割标记
默认情况下,POS标记使用经过训练的英语模型,因此每个标记为给定的训练模型提供相同的POS标记。如果再次训练该模型,它将会改变。
因此,您问题的基本答案是no
答案 1 :(得分:0)
标记器和标记器都是确定性的。虽然迭代Python字典可能会在程序的每次执行中以不同的顺序返回结果,但这不会影响标记化 - 因此标记的数量(标记的或不标记的)不应该变化。您的代码还有其他问题。