我可以成功地将文本读入变量,但在尝试将文本标记化时,我得到了这个奇怪的错误:
sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)
我知道错误的原因是一些特殊的字符串/ char,令牌器无法读取/解码但是如何绕过这个? 感谢
答案 0 :(得分:23)
你应该试试这个:
sentences=nltk.sent_tokenize(sample.decode('utf-8'))
答案 1 :(得分:0)
简而言之,NLTK3的pos_tag功能不起作用。
然而,NLTK2功能正常。
pip uninstall nltk
pip install http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz
另一方面,标记器非常糟糕(显然'conservatory'是一个动词)。我希望SpaCy在Windows上工作。