识别前置物和个体POS

时间:2015-05-26 06:09:16

标签: nlp stanford-nlp

我正试图为段落中的每个单词找到正确的词性。我正在使用Stanford POS Tagger。但是,我陷入了困境。

我想从段落中识别介词。

Penn Treebank Tagset说:

IN  Preposition or subordinating conjunction

如何,我能确定当前的单词是介词还是从属结合。在这种情况下,如何从段落中仅提取介词?

2 个答案:

答案 0 :(得分:2)

你不能确定。这个有点奇怪的PoS的原因是,很难自动确定例如 for 是介词还是从属连词。因此,为了使自动标记器具有更好的精度,这种区别被简单地忽略了。请注意,还有一个标记TO,无论其作为介词,不定式粒子还是其他任何东西(我认为还有其他)都可以用于的任何出现。< / p>

如果您需要正确识别介词,则需要使用修改后的标签集重新训练标记器,或者训练一个采用PoS标记文本的分类器,并且只进行最终的消歧。

答案 1 :(得分:2)

我有一些突破来理解这个词是否实际上是介词或从属连词。

我解析了以下句子:

  

她早早离开是因为迈克和他的新女友一起来。

(这是因为是从属结合)

POS标记后

  

She_PRP left_VBD early_RB because_IN Mike_NNP arrival_VBD with_IN   his_PRP $ new_JJ boys_NN ._。

这里,为了确保因为是介词或不是介词,我已经解析了句子。

Parse Tree for Sentence 1

这里因为在IN之后将直接父级作为SBAR(从属子句)作为root。

带有的

也属于IN,但其直接父级将为 PP ,因此它是介词。

示例2:

  

将手放在伤口上,直到护士要求您将其取下。   (这里直到协调结合)

POS标记是:

  

Keep_VB your_PRP $ hand_NN on_IN the_DT wound_NN until_IN the_DT   nurse_NN asks_VBZ you_PRP to_TO take_VB it_PRP off_RP ._。

因此,直到和之后被标记为 IN

但是,当我们实际解析句子时,图片会更清晰。

所以最后我得出结论,因为它是次要的结合而且是介词。

尝试了多种句子变体..除了之前之后的之外,几乎所有情况都适用。 Example 2