pos_tag在ALL CAPS中的文本失败

时间:2011-11-24 02:36:10

标签: nltk

我正在处理文本,不幸的是,这是在所有大写字母中给出的。默认的nltk.pos_tag函数在这个文本上做得不是很好(它认为一切都是专有名词)。

处理这个问题的最佳方法是什么?

1 个答案:

答案 0 :(得分:2)

最好的方法是在POS标记之前将truecasing应用于您的文字。

如果这对你来说太多了,你可以使用x将你的Python字符串x.lower()转换为较低的字符,这至少应该避免只获得专有名词标签的问题(可能会有虽然有一些混淆,但专有名词标签太少了。

您可以通过将之前标记的语料库转换为lower来训练POS-Tagger,但如果您想获得最佳效果,您可能希望选择真实的语法。