我正在使用python3.5和nltk pos_tag函数以及WordNetLemmatizer。我的目标是在我们的数据库中拼合单词以对文本进行分类。我正在尝试使用lemmatizer进行测试,并且在相同的令牌上使用POS标记符时会遇到奇怪的行为。在下面的示例中,我有一个包含三个字符串的列表,当在POS标记器中运行它们时,每个其他元素都作为名词(NN)返回,其余元素作为动词返回(VBG)。
这会影响词形还原。输出看起来像这样:
pos Of token: v
lemmatized token: skydive
pos Of token: n
lemmatized token: skydiving
pos Of token: v
lemmatized token: skydive
如果我向相同字符串列表中添加更多元素,则会继续使用相同的模式。我正在使用的代码是:
tokens = ['skydiving', 'skydiving', 'skydiving']
lmtzr=WordNetLemmatizer()
def get_wordnet_pos(treebank_tag):
if treebank_tag.startswith('J'):
return 'a'
elif treebank_tag.startswith('V'):
return 'v'
elif treebank_tag.startswith('N'):
return 'n'
elif treebank_tag.startswith('R'):
return 'r'
elif treebank_tag.startswith('S'):
return ''
else:
return ''
numTokens = (len(tokens))
for i in range(0,numTokens):
tokens[i]=tokens[i].replace(" ","")
noSpaceTokens = pos_tag(tokens)
for token in noSpaceTokens:
tokenStr = str(token[1])
noWhiteSpace = token[0].replace(" ", "")
preLemmed = get_wordnet_pos(tokenStr)
print("pos Of token: " + preLemmed)
lemmed = lmtzr.lemmatize(noWhiteSpace,preLemmed)
print("lemmatized token: " + lemmed)
答案 0 :(得分:3)
简而言之:
当POS标记时,您需要一个上下文句子而不是一个不符合语法的标记列表。
当将上下文句子解释时,获得正确引理的唯一方法是手动指定pos标记。
pos
参数。 n
POS,另请参阅WordNetLemmatizer not returning the right lemma unless POS is explicit - Python NLTK 长期:
POS标记器通常适用于完整的句子,而不是单个单词。当您尝试将单个单词标记为脱离上下文时,您获得的是最常用的标记。
要验证标记单个单词(即只有一个单词的句子)时,它总是会给出相同的标记:
>>> from nltk.stem import WordNetLemmatizer
>>> from nltk import pos_tag
>>> ptb2wn_pos = {'J':'a', 'V':'v', 'N':'n', 'R':'r'}
>>> sent = ['skydive']
>>> most_frequent_tag = pos_tag(sent)[0][1]
>>> most_frequent_tag
'JJ'
>>> most_frequent_tag = ptb2wn_pos[most_frequent_tag[0]]
>>> most_frequent_tag
'a'
>>> for _ in range(1000): assert ptb2wn_pos[pos_tag(sent)[0][1][0]] == most_frequent_tag;
...
>>>
现在,由于标签始终是' a'默认情况下,如果句子只有1个单词,那么WordNetLemmatizer
将始终返回skydive
:
>>> wnl = WordNetLemmatizer()
>>> wnl.lemmatize(sent[0], pos=most_frequent_tag)
'skydive'
让我们在一个句子的上下文中看到一个单词的引理:
>>> sent2 = 'They skydrive from the tower yesterday'
>>> pos_tag(sent2.split())
[('They', 'PRP'), ('skydrive', 'VBP'), ('from', 'IN'), ('the', 'DT'), ('tower', 'NN'), ('yesterday', 'NN')]
>>> pos_tag(sent2.split())[1]
('skydrive', 'VBP')
>>> pos_tag(sent2.split())[1][1]
'VBP'
>>> ptb2wn_pos[pos_tag(sent2.split())[1][1][0]]
'v'
因此,当您执行pos_tag
时,令牌输入列表的上下文很重要。
在您的示例中,您有一个列表['skydiving', 'skydiving', 'skydiving']
,这意味着您正在标记的句子是一个不合语法的句子:
跳伞跳伞跳伞
pos_tag
函数认为是一个正常的句子,因此给出了标签:
>>> sent3 = 'skydiving skydiving skydiving'.split()
>>> pos_tag(sent3)
[('skydiving', 'VBG'), ('skydiving', 'NN'), ('skydiving', 'VBG')]
在这种情况下,第一个是动词,第二个词是名词,第三个词是动词,它将返回以下引理(你不想要的):
>>> wnl.lemmatize('skydiving', 'v')
'skydive'
>>> wnl.lemmatize('skydiving', 'n')
'skydiving'
>>> wnl.lemmatize('skydiving', 'v')
'skydive'
因此,如果我们在令牌列表中有一个有效的语法句子,则输出可能看起来非常不同
>>> sent3 = 'The skydiving sport is an exercise that promotes diving from the sky , ergo when you are skydiving , you feel like you are descending to earth .'
>>> pos_tag(sent3.split())
[('The', 'DT'), ('skydiving', 'NN'), ('sport', 'NN'), ('is', 'VBZ'), ('an', 'DT'), ('exercise', 'NN'), ('that', 'IN'), ('promotes', 'NNS'), ('diving', 'VBG'), ('from', 'IN'), ('the', 'DT'), ('sky', 'NN'), (',', ','), ('ergo', 'RB'), ('when', 'WRB'), ('you', 'PRP'), ('are', 'VBP'), ('skydiving', 'VBG'), (',', ','), ('you', 'PRP'), ('feel', 'VBP'), ('like', 'IN'), ('you', 'PRP'), ('are', 'VBP'), ('descending', 'VBG'), ('to', 'TO'), ('earth', 'JJ'), ('.', '.')]