我在CSV文件中有大约11000行数据,其中包含Text和Class列。文本是推特消息,其中每个都在类中分配了True或false。我使用这两个命令来训练和测试这些数据使用逻辑回归模型,但结果不是很好,AUC为0.52。我不太了解--rate
--features
和--lambda
等参数,所以有人可以帮我提供更合适的命令吗?非常感谢!
$ bin/mahout trainLogistic --passes 100 --rate 50 --lambda 0.001 --input twitter.csv --features 10000 --output twitter.model --target Class --categories 2 --predictors Text --types t
$ bin/mahout runlogistic --input twitter.csv --model twitter.model --AUC --confusion
数据文件的链接:twitter.csv
答案 0 :(得分:0)
以下是用于训练模型的参数。
"input" : training data
"output" : path to the file where model will be written.
"target" : dependent variable which is to be predicted
"categories" : number of unique possible values that target can be assigned
"predictors" : list of field names that are to be used to predict target variable
"types" : datatypes for the items in predictor list
"passes" : number of passes over the input data
"features" : size of internal feature vector
"lambda" : amount of co-efficient decay to use
"rate" : initial learning rate
您可以参考Logistic Regression in Mahout帖子以获取详细说明。