减少CRFClassifier模型文件大小

时间:2015-09-16 00:01:53

标签: stanford-nlp

我正在使用CoreNLP' CRFClassifier训练一个chunker,我想减少生成的模型文件的大小。我认为我可以使用featureCountThreshold属性来限制不常见的功能,并以这种方式减小文件大小,但我尝试了几个阈值,文件大小始终相同,所以要么我做错了,要么我误解了featureCountThreshold财产。

这是我实例化CRFClassifier

的方式
val props = new Properties()
props.setProperty("macro", "true")
props.setProperty("featureFactory", "edu.arizona.sista.chunker.ChunkingFeatureFactory")
props.setProperty("featureCountThreshold", "10")
new CRFClassifier[CoreLabel](props)

代码在scala中,但应该很简单。

这是减小文件大小的正确方法吗?如果没有,有没有办法实现这个目标?

1 个答案:

答案 0 :(得分:0)

对于下一个尝试这样做的人:

CoreNLP中有两个名称相似的属性:featureCountThresholdfeatureCountThreshfeatureCountThresh是完成此任务的正确选项。 我们能够使用10 featureCountThresh将模型从321M减少到54M,并且仍保持几乎相同的性能。