我刚刚开始使用NLTK,我注意到它与非ascii标点符号不兼容。例如,“
被标记为名词。此外,由于NLTK将“
解释为单词而非标点符号,因此使用非ascii标点符号会对其余单词的POS标记进行混淆。
是否有设置可以让NLTK识别非ascii标点符号?由于只有一个非unicode标点符号会占用整个文档的POS标记,我不能只用“
替换每个"
。
答案 0 :(得分:0)
我不知道这样的设置。
但是我对pos-tagging非纯文本(文本增加了一些类似xml的标签)有类似的问题。这些xml标签通常没有正确标记。所以我在开始pos-tagging之前将它们拿出来,跟踪它们的索引并在标记后重新插入它们(然后手动为它们分配正确的标记)。 可以说,标点符号的存在与否都不会改变nltk的pos-tagging输出那么多,所以你可以尝试相同的。特别是因为我猜你的“有问题”的标点字符集非常有限?