在训练模型时,有一个名为limitFeatures
的选项。当我设置此功能时,请说100
ColumnDataClassifier仅使用前100个功能。但是,它仍将所有功能序列化为model.ser.gz
。当我在我的Java代码中反序列化此文件时,我的程序使用约。 500M内存。有没有办法用刚刚选择的特征创建较小的模型?
我正在使用CLI中的工具。但是任何使用Java的解决方案都是非常受欢迎的。以下是prop文件中的相关代码:
useClassFeature=false
1.useSplitWordNGrams=true
1.useSplitWords=true
1.useNGrams=false
1.usePrefixSuffixNGrams=false
1.splitWordsRegexp=\\s+
1.maxWordNGramLeng=5
1.minWordNGramLeng=2
1.binnedLengths=10,20,30,50,75,100,200,300,500
1.useLowercaseSplitWords=true
1.useAdaptL1=true
1.limitFeatures=500
1.l1reg=5.0
featureMinimumSupport=5
featureWeightThreshold=10