我是一名语言学家,试图弄清楚如何使用NLTK
以及如何在语料库中标记词性。
我正在尝试使用函数pos_tag并获得与另一张海报相同的错误消息:ascii编解码器无法解码字节...
请参阅此链接:NLTK 3 POS_TAG throws UnicodeDecodeError
我尝试了所有建议的解决方案,包括原始海报给出的解决方案,但没有成功。
这个问题还有更多可行的解决方案吗?
答案 0 :(得分:0)
听起来你得到的是unicode错误。你的语料库来自哪里?您可能有一些看起来像' 0xd1'或类似的东西。这是一个非常标准的问题,并且往往很难处理。根据我的经验,您必须使用正则表达式替换来删除这些字符。
确切的错误是什么?如果你提供我可以帮助你使用正则表达式删除坏标记。