使用上下文来改进词性标注

时间:2012-01-20 20:50:07

标签: nlp

是否有一些常用或推荐的技术来使用单词上下文来提高词性标注的准确性?

例如,如果我有句子:

  

我在链接上打高尔夫球。

“链接”一词可以是单数(高尔夫球场)或复数。我在几个语法检查器中尝试了这个句子,他们都正确地认出了这句话是有效的。

问题是他们还认为这句话是有效的:

  

我点击了一个链接。

有没有一种方法可以使用上下文(点击vs打高尔夫球)来推断正确的词性?

谢谢!

1 个答案:

答案 0 :(得分:2)

确定"链接"是一个高尔夫球场"或"参考"是一个名为词义消歧的任务。 以下是维基百科关于Word-sense disambiguation关于词性标注关系的文章:

  

在任何真实的测试中,词性标注和感知标记与每个可能对另一个产生约束的关系密切相关。这些任务是否应该保持在一起或解耦的问题仍未得到一致解决,但最近科学家倾向于分别测试这些事情(例如,在Senseval / SemEval比赛中,词性提供作为文本的输入以消除歧义)。   将词义消歧问题与词性标注问题进行比较是有益的。两者都涉及消除歧义或用词语标记,无论是感官还是词性。然而,用于一个的算法往往不能很好地适用于另一个,主要是因为一个单词的词性主要由紧邻的一到三个单词决定,而一个单词的意义可能由更远的单词决定。词性标注算法的成功率目前远远高于WSD,现有技术的准确度大约为95%或更高,而单词意义消歧的准确率低于75%。 。这些数字对于英语来说是典型的,可能与其他语言的数据非常不同。

我不知道使用WSD来通知POS标记的作品(但是,使用POS标签来告知WSD是标准。)这听起来对我来说是一个好主意,即使对准确性的好处会很小,因为准确度已经很高了。它可以在Toutanova的CRF标记器中实现。