Question

我可以成功地将文本读入变量，但在尝试将文本标记化时，我得到了这个奇怪的错误：

sentences=nltk.sent_tokenize(sample)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

我知道错误的原因是一些特殊的字符串/ char，令牌器无法读取/解码但是如何绕过这个？感谢

Answer 1

你应该试试这个：

sentences=nltk.sent_tokenize(sample.decode('utf-8'))

Answer 2

简而言之，NLTK3的pos_tag功能不起作用。

然而，NLTK2功能正常。

pip uninstall nltk

pip install http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

另一方面，标记器非常糟糕（显然'conservatory'是一个动词）。我希望SpaCy在Windows上工作。