我正在使用CoreNLP' CRFClassifier
训练一个chunker,我想减少生成的模型文件的大小。我认为我可以使用featureCountThreshold
属性来限制不常见的功能,并以这种方式减小文件大小,但我尝试了几个阈值,文件大小始终相同,所以要么我做错了,要么我误解了featureCountThreshold
财产。
这是我实例化CRFClassifier
:
val props = new Properties()
props.setProperty("macro", "true")
props.setProperty("featureFactory", "edu.arizona.sista.chunker.ChunkingFeatureFactory")
props.setProperty("featureCountThreshold", "10")
new CRFClassifier[CoreLabel](props)
代码在scala中,但应该很简单。
这是减小文件大小的正确方法吗?如果没有,有没有办法实现这个目标?
答案 0 :(得分:0)
对于下一个尝试这样做的人:
CoreNLP中有两个名称相似的属性:featureCountThreshold
和featureCountThresh
。 featureCountThresh
是完成此任务的正确选项。
我们能够使用10 featureCountThresh
将模型从321M减少到54M,并且仍保持几乎相同的性能。