我目前有一个包含数百个单词的文本文件,我正尝试在python中进行pos标签。该文件包含已标记的单词。在将pos标记器应用于这些单词时,大多数标记均被错误地标记,而最常见的标记是POS或CD。我知道pos标记器不是100%准确的,但是在这种情况下,有太多不正确的POS和CD标记被应用,我想我可能需要格式化输入文件或使用标记器进行某些更改才能获得正确的标记。 / p>
如前所述,txt文件中有几百个单词,因此我提供了它们所包含的单词和格式的一个小例子。该文件称为token.txt
:
['research', 'interests', 'member', 'language', 'computation']
python代码是:
import nltk
from nltk.corpus import *
f = open('token.txt')
data=f.read().split()
fire = nltk.pos_tag(data)
print(fire)
此小样本的当前结果是:
[("['research',", 'JJ'), ("'interests',", 'POS'), ("'member',", 'POS'), ("'language',", 'CD'), ("'computation']", 'NNS')]
我知道兴趣应标记为NNS,成员应标记为NN和语言。整个文档中都出现了错误的标记