Stanford NLP ColumnDataClassifier:如何仅使用顶级功能序列化模型?

时间:2016-11-18 20:17:21

标签: java stanford-nlp

在训练模型时,有一个名为limitFeatures的选项。当我设置此功能时,请说100 ColumnDataClassifier仅使用前100个功能。但是,它仍将所有功能序列化为model.ser.gz。当我在我的Java代码中反序列化此文件时,我的程序使用约。 500M内存。有没有办法用刚刚选择的特征创建较小的模型?

我正在使用CLI中的工具。但是任何使用Java的解决方案都是非常受欢迎的。以下是prop文件中的相关代码:

useClassFeature=false
1.useSplitWordNGrams=true
1.useSplitWords=true
1.useNGrams=false
1.usePrefixSuffixNGrams=false
1.splitWordsRegexp=\\s+
1.maxWordNGramLeng=5
1.minWordNGramLeng=2
1.binnedLengths=10,20,30,50,75,100,200,300,500
1.useLowercaseSplitWords=true
1.useAdaptL1=true
1.limitFeatures=500
1.l1reg=5.0
featureMinimumSupport=5
featureWeightThreshold=10

0 个答案:

没有答案