我正试图为段落中的每个单词找到正确的词性。我正在使用Stanford POS Tagger。但是,我陷入了困境。
我想从段落中识别介词。
Penn Treebank Tagset说:
IN Preposition or subordinating conjunction
如何,我能确定当前的单词是介词还是从属结合。在这种情况下,如何从段落中仅提取介词?
答案 0 :(得分:2)
你不能确定。这个有点奇怪的PoS的原因是,很难自动确定例如 for 是介词还是从属连词。因此,为了使自动标记器具有更好的精度,这种区别被简单地忽略了。请注意,还有一个标记TO
,无论其作为介词,不定式粒子还是其他任何东西(我认为还有其他)都可以用于到的任何出现。< / p>
如果您需要正确识别介词,则需要使用修改后的标签集重新训练标记器,或者训练一个采用PoS标记文本的分类器,并且只进行最终的消歧。
答案 1 :(得分:2)
我有一些突破来理解这个词是否实际上是介词或从属连词。
我解析了以下句子:
她早早离开是因为迈克和他的新女友一起来。
(这是因为是从属结合)
POS标记后
She_PRP left_VBD early_RB because_IN Mike_NNP arrival_VBD with_IN his_PRP $ new_JJ boys_NN ._。
这里,为了确保因为是介词或不是介词,我已经解析了句子。
这里因为在IN之后将直接父级作为SBAR(从属子句)作为root。
带有的也属于IN,但其直接父级将为 PP ,因此它是介词。
示例2:
将手放在伤口上,直到护士要求您将其取下。 (这里直到协调结合)
POS标记是:
Keep_VB your_PRP $ hand_NN on_IN the_DT wound_NN until_IN the_DT nurse_NN asks_VBZ you_PRP to_TO take_VB it_PRP off_RP ._。
因此,直到和之后被标记为 IN 。
但是,当我们实际解析句子时,图片会更清晰。
所以最后我得出结论,因为它是次要的结合而且是介词。
尝试了多种句子变体..除了之前和之后的之外,几乎所有情况都适用。