我正在尝试使用NLTK阻止法语文本
欧洲北部水果espècefraisier bois小尾巴connus depuisantiquitéromains consommaient实用产品cosmétiquesraison odeur可耕种的欧洲花园
弗雷西耶·康古斯水果小蜜饯·马斯奎伊·独特的鉴赏家,无栽培的普雷西耶·弗朗兹·贾丁斯栽培种,普·赛义克·普雷西诺·康努流派,适度的espècechapironnommé1576
脆弱的垂直栽培水果会适得其反,再加上强而有力的对象就可以为消费者提供纯净的食物
存在于西埃克洛普勒尔的人和植物之间的关系易碎的espèceintéresseassez水果香精栽培的商业日程已经存在生产工业易碎的suivie优先fraisemûrir
我正在尝试遵循NLTK教程,但是没有用。
from nltk.stem.snowball import FrenchStemmer
with open('text.txt', 'r') as f:
file = f.read()
stemmer = FrenchStemmer()
tokens = word_tokenize(file)
french_stem = [stemmer.stem(word) for word in word_tokenize(file)]
stemmed_text = ' '.join([stemmer.stem(word) for word in word_tokenize(file)])
print(stemmed_text)
输出:
TypeError:预期的字符串或类似字节的对象