我想获得自然英语单词的初始形式,例如:
'words' -> 'word'
'Jhon' -> 'John'
'openning' -> 'open'
我试过python Stemer lib:
st=Stemer.Stemer()
for w in ('very', 'words', 'openning'):
print st.stemWord(w),
>>>veri word open
我希望'非常'而是得到了' veri'
然后是nltk.corpus.wordnet lib:
from nltk.corpus import wordnet
wordnet.synsets( 'beans' )
[Synset('bean.n.01'),
>>>Synset('bean.n.02'),
>>>Synset('bean.n.03'),
>>>Synset('attic.n.03'),
>>>Synset('bean.v.01')]
它提供了更多信息但不是快速字典。
LancasterStemmer无法获得英语' as' english':
from nltk.stem.lancaster import LancasterStemmer
st = LancasterStemmer()
st.stem('english')
>>>>'engl'
附魔lib方法check()和sugguest()不适合:
>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
获取快速原始表单的任何方法,文档文本?