应用错误收集

使NLTK适用于UTF8标点符号？

时间：2015-07-08 06:27:29

标签： python utf-8 nltk

我刚刚开始使用NLTK，我注意到它与非ascii标点符号不兼容。例如，“被标记为名词。此外，由于NLTK将“解释为单词而非标点符号，因此使用非ascii标点符号会对其余单词的POS标记进行混淆。

是否有设置可以让NLTK识别非ascii标点符号？由于只有一个非unicode标点符号会占用整个文档的POS标记，我不能只用“替换每个"。

1 个答案:

答案 0 :(得分：0)

我不知道这样的设置。

但是我对pos-tagging非纯文本（文本增加了一些类似xml的标签）有类似的问题。这些xml标签通常没有正确标记。所以我在开始pos-tagging之前将它们拿出来，跟踪它们的索引并在标记后重新插入它们（然后手动为它们分配正确的标记）。可以说，标点符号的存在与否都不会改变nltk的pos-tagging输出那么多，所以你可以尝试相同的。特别是因为我猜你的“有问题”的标点字符集非常有限？