我们一直在使用corenlp软件包(2014年6月版;带有默认注释器)主要用于依赖性解析。
最近,我注意到像"The Bank of England announced further interest rate increases today"
这样的名词复合包围的问题 - 名词复合,"interest rate increases"
被错误地括起来(interest
被解析为修改{{1}而不是increases
)。当你将这个句子放在stanford解析器的在线演示中时,以及其他类似的句子,其中名词化合物基本上修改另一个名词时也是这种情况。
我的一位同事做了比我更多解析的同事说这很可能是因为该模型已经在Penn Treebank的未修补版本上接受了培训。我们自己的内部解析器已经修补了修补版本确实得到(大多数)这些名词化合物是正确的。我想知道是否有一个替代预训练的斯坦福corenlp解析器模型,我不知道 - 如果有,我们如何使用这个不同的模型运行管道?