应用错误收集

在训练模型时，有一个名为limitFeatures的选项。当我设置此功能时，请说100 ColumnDataClassifier仅使用前100个功能。但是，它仍将所有功能序列化为model.ser.gz。当我在我的Java代码中反序列化此文件时，我的程序使用约。 500M内存。有没有办法用刚刚选择的特征创建较小的模型？

我正在使用CLI中的工具。但是任何使用Java的解决方案都是非常受欢迎的。以下是prop文件中的相关代码：

useClassFeature=false
1.useSplitWordNGrams=true
1.useSplitWords=true
1.useNGrams=false
1.usePrefixSuffixNGrams=false
1.splitWordsRegexp=\\s+
1.maxWordNGramLeng=5
1.minWordNGramLeng=2
1.binnedLengths=10,20,30,50,75,100,200,300,500
1.useLowercaseSplitWords=true
1.useAdaptL1=true
1.limitFeatures=500
1.l1reg=5.0
featureMinimumSupport=5
featureWeightThreshold=10

Stanford NLP ColumnDataClassifier：如何仅使用顶级功能序列化模型？

0 个答案: