使用AntConc与使用Python标记的文本的不同答案

时间:2019-02-13 20:33:08

标签: python tokenize

好,所以我一直在标记整个LOTR,《指环王》,而且我认为它运行得很好,但是当我尝试用脚本打印某些单词并使用AntConc检查是否我是对的,有一个空隙,例如,使用我的标记化文本,它说Frodo被写了1033次,而AntConc说了1101次。

我检查了代码是否可以在某些地方拆分Frodo,但是我找不到任何东西,源文本与以前使用的相同,并且如果Frodo已在源文本中的某处被切断,AntConc不会我想我也没有想到过这两个词,也许这就是原因,但是我真的看不出来怎么做,因为Frodo中没有“ t,s,l或m”。

0

这是代码,如果需要,可以在archive.org上找到该文本以供参考。我很茫然...

PS:AntConc是一个免费软件,非常易于理解,因此,如果您还不了解它,那么很快就可以检出它。

0 个答案:

没有答案