我在使用Stanford NLP Parser / POS Tagger的应用程序中找到了不一致行为的示例,我能够在线复制它http://nlp.stanford.edu:8080/corenlp/process。我使用的是版本3.60:
以下是我迄今为止发现的3个问题:
我知道语言含糊不清但我想知道即使是那些简单的短语,我是否可以信任这个库。我也想知道我做错了什么。我单独尝试了每个例子中的问题案例,或者换句话说在单独的句子中,问题仍然存在。
这是预期的行为:
任何帮助表示赞赏!感谢
答案 0 :(得分:3)
你没有做错任何事。您当然欢迎自己决定对任何工具有多信任,但我怀疑您会在经验/统计学方面对任何解析器发现类似问题。至于你的问题:
就其所做的特定错误选择而言,它们通常反映解析器训练数据与您尝试的句子之间的使用/域不匹配。培训数据主要是新闻文章 - 关于此事的最新千篇新闻文章 - 尽管我们确实混合了一些其他数据并偶尔增加它。所以:
答案 1 :(得分:1)
POS标签的不同结果让我发疯了所以为了理智检查我终于写了一些东西来快速比较结果与三者通常使用(斯坦福NLP,NLTK 3.2.1和塞纳) 它也是它们的时间,因为通常一个标记符可以阻塞某些文本。 https://github.com/StealthyK/TaggerTimer