使用NLTK

时间:2018-07-26 16:37:39

标签: python python-3.x nltk stemming

我正在尝试使用NLTK阻止法语文本

  

欧洲北部水果espècefraisier bois小尾巴connus depuisantiquitéromains consommaient实用产品cosmétiquesraison odeur可耕种的欧洲花园

     

弗雷西耶·康古斯水果小蜜饯·马斯奎伊·独特的鉴赏家,无栽培的普雷西耶·弗朗兹·贾丁斯栽培种,普·赛义克·普雷西诺·康努流派,适度的espècechapironnommé1576

     

脆弱的垂直栽培水果会适得其反,再加上强而有力的对象就可以为消费者提供纯净的食物

     

存在于西埃克洛普勒尔的人和植物之间的关系易碎的espèceintéresseassez水果香精栽培的商业日程已经存在生产工业易碎的suivie优先fraisemûrir

我正在尝试遵循NLTK教程,但是没有用。

from nltk.stem.snowball import FrenchStemmer

with open('text.txt', 'r') as f:
    file = f.read()

   stemmer = FrenchStemmer()
   tokens = word_tokenize(file)
   french_stem = [stemmer.stem(word) for word in word_tokenize(file)]
   stemmed_text = ' '.join([stemmer.stem(word) for word in word_tokenize(file)])
   print(stemmed_text)

输出:

  

TypeError:预期的字符串或类似字节的对象

0 个答案:

没有答案