我正在处理文本,不幸的是,这是在所有大写字母中给出的。默认的nltk.pos_tag
函数在这个文本上做得不是很好(它认为一切都是专有名词)。
处理这个问题的最佳方法是什么?
答案 0 :(得分:2)
最好的方法是在POS标记之前将truecasing应用于您的文字。
如果这对你来说太多了,你可以使用x
将你的Python字符串x.lower()
转换为较低的字符,这至少应该避免只获得专有名词标签的问题(可能会有虽然有一些混淆,但专有名词标签太少了。
您可以通过将之前标记的语料库转换为lower
来训练POS-Tagger,但如果您想获得最佳效果,您可能希望选择真实的语法。