使NLTK适用于UTF8标点符号?

时间:2015-07-08 06:27:29

标签: python utf-8 nltk

我刚刚开始使用NLTK,我注意到它与非ascii标点符号不兼容。例如,被标记为名词。此外,由于NLTK将解释为单词而非标点符号,因此使用非ascii标点符号会对其余单词的POS标记进行混淆。

是否有设置可以让NLTK识别非ascii标点符号?由于只有一个非unicode标点符号会占用整个文档的POS标记,我不能只用替换每个"

1 个答案:

答案 0 :(得分:0)

我不知道这样的设置。

但是我对pos-tagging非纯文本(文本增加了一些类似xml的标签)有类似的问题。这些xml标签通常没有正确标记。所以我在开始pos-tagging之前将它们拿出来,跟踪它们的索引并在标记后重新插入它们(然后手动为它们分配正确的标记)。 可以说,标点符号的存在与否都不会改变nltk的pos-tagging输出那么多,所以你可以尝试相同的。特别是因为我猜你的“有问题”的标点字符集非常有限?