如何在MLBase中将类别变量转换为虚拟/指示变量

时间:2015-06-30 07:47:51

标签: scala apache-spark machine-learning logistic-regression apache-spark-mllib

我正在尝试使用MLBase中的逻辑回归模型来预测广告的点击率。在我的数据集中,我有一些类别变量,我想将它们转换为用作模型输入的虚拟/指示变量。我的数据看起来像

"log_time","country","gender"
"2015-05-19","USA","M"
"2015-05-20","IND","F"

是否有一些解决方案可以在MLBase或scala中完成转换?

1 个答案:

答案 0 :(得分:2)

您正在寻找的内容称为one hot encoding

Spark的MLlib has a one hot encoder可以为你做这件事。