不能在Python v2或v3中使用NLTK pos_tag

时间:2015-03-04 02:33:00

标签: python nltk

我是一名语言学家,试图弄清楚如何使用NLTK以及如何在语料库中标记词性。

我正在尝试使用函数pos_tag并获得与另一张海报相同的错误消息:ascii编解码器无法解码字节...

请参阅此链接:NLTK 3 POS_TAG throws UnicodeDecodeError

我尝试了所有建议的解决方案,包括原始海报给出的解决方案,但没有成功。

这个问题还有更多可行的解决方案吗?

1 个答案:

答案 0 :(得分:0)

听起来你得到的是unicode错误。你的语料库来自哪里?您可能有一些看起来像' 0xd1'或类似的东西。这是一个非常标准的问题,并且往往很难处理。根据我的经验,您必须使用正则表达式替换来删除这些字符。

确切的错误是什么?如果你提供我可以帮助你使用正则表达式删除坏标记。