标签: scala apache-spark machine-learning logistic-regression apache-spark-mllib
我正在尝试使用MLBase中的逻辑回归模型来预测广告的点击率。在我的数据集中,我有一些类别变量,我想将它们转换为用作模型输入的虚拟/指示变量。我的数据看起来像
"log_time","country","gender" "2015-05-19","USA","M" "2015-05-20","IND","F"
是否有一些解决方案可以在MLBase或scala中完成转换?
答案 0 :(得分:2)
您正在寻找的内容称为one hot encoding。
Spark的MLlib has a one hot encoder可以为你做这件事。