Stanford NLP POS Tagger有非常简单的短语问题?

时间:2016-03-20 02:48:43

标签: nlp stanford-nlp linguistics part-of-speech

我在使用Stanford NLP Parser / POS Tagger的应用程序中找到了不一致行为的示例,我能够在线复制它http://nlp.stanford.edu:8080/corenlp/process。我使用的是版本3.60:

以下是我迄今为止发现的3个问题:

  • 有或没有不一致问题的点:

NLP Stanford POS Tagger with and without dot

  • 被称为名词的动词 enter image description here

  • 被标记为形容词的动词 enter image description here

我知道语言含糊不清但我想知道即使是那些简单的短语,我是否可以信任这个库。我也想知道我做错了什么。我单独尝试了每个例子中的问题案例,或者换句话说在单独的句子中,问题仍然存在。

这是预期的行为:

enter image description here

任何帮助表示赞赏!感谢

2 个答案:

答案 0 :(得分:3)

你没有做错任何事。您当然欢迎自己决定对任何工具有多信任,但我怀疑您会在经验/统计学方面对任何解析器发现类似问题。至于你的问题:

  • 句点被视为模型构建中的任何其他标记,因此,是的,它们可以影响所选择的分析。
  • 英语确实存在很多含糊之处(正如所有其他人类语言一样),以及是否将以 ing 结尾的形式解释为动词,名词(动词名词或动词)的问题)或形容词是常见的。解析器并不总是正确。
  • 就其所做的特定错误选择而言,它们通常反映解析器训练数据与您尝试的句子之间的使用/域不匹配。培训数据主要是新闻文章 - 关于此事的最新千篇新闻文章 - 尽管我们确实混合了一些其他数据并偶尔增加它。所以:

    • 使用标记作为动词,在现代互联网开发人员的使用中很常见,在训练数据中根本不会发生,因此毫不奇怪地选择JJ用于标记,因为这是对训练数据中唯一案例的分析。
    • 在新闻文章饮用更常见的是名词,讨论未成年人饮酒喝咖啡饮酒和驾车等。

答案 1 :(得分:1)

POS标签的不同结果让我发疯了所以为了理智检查我终于写了一些东西来快速比较结果与三者通常使用(斯坦福NLP,NLTK 3.2.1和塞纳) 它也是它们的时间,因为通常一个标记符可以阻塞某些文本。 https://github.com/StealthyK/TaggerTimer