应用错误收集

pos_tag在ALL CAPS中的文本失败

时间：2011-11-24 02:36:10

标签： nltk

我正在处理文本，不幸的是，这是在所有大写字母中给出的。默认的nltk.pos_tag函数在这个文本上做得不是很好（它认为一切都是专有名词）。

处理这个问题的最佳方法是什么？

1 个答案:

答案 0 :(得分：2)

最好的方法是在POS标记之前将truecasing应用于您的文字。

如果这对你来说太多了，你可以使用x将你的Python字符串x.lower()转换为较低的字符，这至少应该避免只获得专有名词标签的问题（可能会有虽然有一些混淆，但专有名词标签太少了。

您可以通过将之前标记的语料库转换为lower来训练POS-Tagger，但如果您想获得最佳效果，您可能希望选择真实的语法。