好,所以我一直在标记整个LOTR,《指环王》,而且我认为它运行得很好,但是当我尝试用脚本打印某些单词并使用AntConc检查是否我是对的,有一个空隙,例如,使用我的标记化文本,它说Frodo被写了1033次,而AntConc说了1101次。
我检查了代码是否可以在某些地方拆分Frodo,但是我找不到任何东西,源文本与以前使用的相同,并且如果Frodo已在源文本中的某处被切断,AntConc不会我想我也没有想到过这两个词,也许这就是原因,但是我真的看不出来怎么做,因为Frodo中没有“ t,s,l或m”。
0
这是代码,如果需要,可以在archive.org上找到该文本以供参考。我很茫然...
PS:AntConc是一个免费软件,非常易于理解,因此,如果您还不了解它,那么很快就可以检出它。