在python NLTK中,我想在非空白字符串上获得形态分析结果

时间:2014-10-21 10:23:09

标签: python nltk morphological-analysis

我想从NLTK获得非whitesapce字符串的形态分析结果。

例如:

字符串为 "societynamebank"

我想获得['society', 'name', 'bank']

如何在NLTK上获得该结果?

1 个答案:

答案 0 :(得分:2)

这是一个可以帮助您的简单代码。它使用pyEnchant字典进行形态分析:

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> tokens=[]
>>> def tokenize(st):
...    if not st:return
...    for i in xrange(len(st),-1,-1):
...       if d.check(st[0:i]):
...          tokens.append(st[0:i])
...          st=st[i:]
...          tokenize(st)
...          break
... 
>>> tokenize("societynamebank")
>>> tokens
['society', 'name', 'bank']
>>> tokens=[]
>>> tokenize("HelloSirthereissomethingwrongwiththistext")
>>> tokens
['Hello', 'Sir', 'there', 'is', 'something', 'wrong', 'with', 'this', 'text']