python nltk.sent_tokenize错误ascii编解码器无法解码

时间:2014-11-30 11:53:47

标签: python nltk

我可以成功地将文本读入变量,但在尝试将文本标记化时,我得到了这个奇怪的错误:

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

我知道错误的原因是一些特殊的字符串/ char,令牌器无法读取/解码但是如何绕过这个? 感谢

2 个答案:

答案 0 :(得分:23)

你应该试试这个:

sentences=nltk.sent_tokenize(sample.decode('utf-8'))

答案 1 :(得分:0)

简而言之,NLTK3的pos_tag功能不起作用。

然而,NLTK2功能正常。

  

pip uninstall nltk

     

pip install http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

另一方面,标记器非常糟糕(显然'conservatory'是一个动词)。我希望SpaCy在Windows上工作。