在Spark中将列标记为分类

时间:2015-12-03 15:38:38

标签: scala apache-spark random-forest apache-spark-mllib apache-spark-ml

我目前正在使用StringIndexer将很多列转换为唯一的整数,以便在RandomForestModel中进行分类。我也在为ML过程使用管道。

有些问题是

  1. RandomForestModel如何知道哪些列是分类的。 StringIndexer将非数字转换为数字但是它是否添加了somesort的一些元数据以表明它是一个分类列?在mllib.tree.RF中有参数调用categoricalInfo,它表示分类的列。 ml.tree.RF如何知道哪些是不存在的。

  2. 此外,StringIndexer根据出现的频率将类别映射到整数。现在,当新数据出现时,如何确保这些数据与训练数据一致?如果没有StringIndexing再次包括新数据,我可以做到这一点吗?

  3. 我对如何实现这一点感到很困惑。

1 个答案:

答案 0 :(得分:3)

  

是否可以在没有StringIndexing的情况下再次执行此操作,包括新数据?

是的,有可能。您只需使用安装在训练数据上的索引器即可。如果您使用ML管道,将直接使用StringIndexerModel来处理它:

import org.apache.spark.ml.feature.StringIndexer

val train = sc.parallelize(Seq((1, "a"), (2, "a"), (3, "b"))).toDF("x", "y")
val test  = sc.parallelize(Seq((1, "a"), (2, "b"), (3, "b"))).toDF("x", "y")

val indexer = new StringIndexer()
  .setInputCol("y")
  .setOutputCol("y_index")
  .fit(train)

indexer.transform(train).show

// +---+---+-------+
// |  x|  y|y_index|
// +---+---+-------+
// |  1|  a|    0.0|
// |  2|  a|    0.0|
// |  3|  b|    1.0|
// +---+---+-------+

indexer.transform(test).show

// +---+---+-------+
// |  x|  y|y_index|
// +---+---+-------+
// |  1|  a|    0.0|
// |  2|  b|    1.0|
// |  3|  b|    1.0|
// +---+---+-------+

一个可能的警告是,它不能正常处理看不见的标签,因此您必须在转换之前删除这些标签。

  

RandomForestModel如何知道哪些列是分类的。

不同的ML变换器为变换后的列添加特殊的元数据,指示列的类型,类的数量等。

import org.apache.spark.ml.attribute._
import org.apache.spark.ml.feature.VectorAssembler

val assembler = new VectorAssembler()
  .setInputCols(Array("x", "y_index"))
  .setOutputCol("features")

val transformed = assembler.transform(indexer.transform(train))
val meta = AttributeGroup.fromStructField(transformed.schema("features"))
meta.attributes.get

// Array[org.apache.spark.ml.attribute.Attribute] = Array(
//   {"type":"numeric","idx":0,"name":"x"},
//   {"vals":["a","b"],"type":"nominal","idx":1,"name":"y_index"})

transformed.select($"features").schema.fields.last.metadata
// "ml_attr":{"attrs":{"numeric":[{"idx":0,"name":"x"}], 
//  "nominal":[{"vals":["a","b"],"idx":1,"name":"y_index"}]},"num_attrs":2}}