我正在使用TextClassificationEngine
。给出https://docs.prediction.io/demo/textclassification/处的示例,有两种算法(朴素贝叶斯和Logistic回归)用于文本分类。朴素贝叶斯算法工作正常,但当我使用Logistic回归时,它会产生一些错误。
{
"id": "default",
"description": "Default settings",
"engineFactory": "org.template.textclassification.TextClassificationEngine",
"datasource": {
"params": {
"appName": "Logistic"
}
},
"preparator": {
"params": {
"nGram": 2
}
},
"algorithms": [
{
"name": "regParam",
"params": {
"regParam":2,5
}
}
]
}
以上代码是在网站上提供的,由于数组,它在regParam
处有一些错误。任何人都可以向我解释regParam
中的engine.json
以及Logistic回归的最终engine.json
是什么?
答案 0 :(得分:1)
这是文档中的一个错误,我会提交一个拉动来修复它。
regParam期待一个双倍,所以像"regParam":0.1
具体来说,这个参数用于(在Spark ML中)用于L2正则化, 通过惩罚过于复杂的模型,减少了过度拟合的可能性[模型不能很好地概括]。
使用的确切值是经验问题, 如果你担心在regParam的值空间上进行一些搜索的价值,我建议使用保持的验证集(或k-fold)来确定胜利者。