我正在处理一些nlp任务。我的输入是法文,因此,在我的上下文中,仅Snowball Stemmer可用。但是,不幸的是,由于<title>ÐайÑÑÐ°ÐºÐµÑ - ÑовеÑÑ Ð¸
或plural "s"
都无法删除,因此它一直给我留下较差的词干。下面是一些示例:
silent e
答案 0 :(得分:4)
词干不是单词,而是词干,因此要对句子进行标记,并分别词干。
>>> from nltk import word_tokenize
>>> from nltk.stem import SnowballStemmer
>>> fr = SnowballStemmer('french')
>>> sent = "pommes, noisettes dorées & moelleuses, la boîte de 350g"
>>> word_tokenize(sent)
['pommes', ',', 'noisettes', 'dorées', '&', 'moelleuses', ',', 'la', 'boîte', 'de', '350g']
>>> [fr.stem(word) for word in word_tokenize(sent)]
['pomm', ',', 'noiset', 'dor', '&', 'moelleux', ',', 'la', 'boît', 'de', '350g']
>>> ' '.join([fr.stem(word) for word in word_tokenize(sent)])
'pomm , noiset dor & moelleux , la boît de 350g'