Stanford CoreNLP包含几种用于解析英语句子的模型。
以下文件中有一些比较:
我无法找到所有模型的完整描述和比较。 它存在于任何地方吗?如果不是,我认为值得创造。
答案 0 :(得分:2)
我不能给出完整的清单(也许克里斯会插话?),但我的理解是这些模型是:
englishSR
:在各种标准树库上训练的班次减少模型,以及斯坦福大学的一些手工注释数据。这是我们拥有的最快,最准确的模型,但加载模型非常庞大。
english_SD
:斯坦福依赖关系的NN依赖性解析器模型。不赞成使用english_UD
- Universal Dependencies模型。
english_UD
:通用依赖关系的NN依赖关系解析器模型。这是获取依赖树的最快,最准确的方法,但它不会给你选区解析。
englishRNN
:混合PCFG +神经选区解析器模型。除了shift-reduce模型之外,比任何选区解析器更准确,但也明显更慢。
englishFactored
:不是100%确定这是什么,但我的印象是精确度和速度都在englishPCFG
和englishRNN
之间。
englishPCFG
:用于选区解析的常规旧PCFG模型。加载速度快,比移位减少模型以外的任何选区模型都快,而且现代标准也是一种平庸的准确性。尽管如此,这是一个很好的默认值。
englishPCFG.caseless
:PCFG模型的无壳版本。
我认为wsj*
模型可以在论文中重现数字(通过适当的WSJ分裂训练),但我再也不能100%确定它们是什么。
根据模型使用的速度,准确度和基本内存帮助选择正确的模型:
快速:10倍,准确,高记忆:englishSR
中等:1x,准确无误,内存不足:englishPCFG
慢:~0.25x,准确,内存不足:englishRNN
快速:100x,准确,低内存,依赖性仅解析:english_UD