应用错误收集

不能在Python v2或v3中使用NLTK pos_tag

时间：2015-03-04 02:33:00

标签： python nltk

我是一名语言学家，试图弄清楚如何使用NLTK以及如何在语料库中标记词性。

我正在尝试使用函数pos_tag并获得与另一张海报相同的错误消息：ascii编解码器无法解码字节...

请参阅此链接：NLTK 3 POS_TAG throws UnicodeDecodeError

我尝试了所有建议的解决方案，包括原始海报给出的解决方案，但没有成功。

这个问题还有更多可行的解决方案吗？

1 个答案:

答案 0 :(得分：0)

听起来你得到的是unicode错误。你的语料库来自哪里？您可能有一些看起来像＆＃39; 0xd1＆＃39;或类似的东西。这是一个非常标准的问题，并且往往很难处理。根据我的经验，您必须使用正则表达式替换来删除这些字符。

确切的错误是什么？如果你提供我可以帮助你使用正则表达式删除坏标记。