SparkML矢量:访问模型输出

时间:2017-06-17 06:47:17

标签: scala apache-spark apache-spark-mllib

我正在尝试访问模型对象返回的向量中似乎被锁定的值。我在这里和那里看过一些关于旧/新Vector类型的帖子,但这并没有帮助我弄清楚我错过了什么。

CountVectorizer模型中的代码设置了问题。似乎与org.apache.spark.ml.linalg.VectorUDT有关,但我不确定。我被这个被阻挡到了有点尴尬的程度。

有人可以提供一个代码示例,说明如何解析features向量的3个元素:词汇计数,术语ID列表,术语计数列表?

import org.apache.spark.ml.feature.{CountVectorizer, CountVectorizerModel}

sc.version
res1: String = 2.1.1

val df = spark.createDataFrame(Seq(
  (0, Array("a", "b", "c")),
  (1, Array("a", "b", "b", "c", "a"))
)).toDF("id", "words")

// fit a CountVectorizerModel from the corpus
val cvModel: CountVectorizerModel = (new CountVectorizer()
  .setInputCol("words")
  .setOutputCol("features")
  .setVocabSize(3)
  .setMinDF(2)
  .fit(df)
)

// alternatively, define CountVectorizerModel with a-priori vocabulary
val cvm = (new CountVectorizerModel(Array("a", "b", "c"))
  .setInputCol("words")
  .setOutputCol("features")
)

val df_vectorized = cvModel.transform(df)

df_vectorized.show(false)

+---+---------------+-------------------------+
|id |words          |features                 |
+---+---------------+-------------------------+
|0  |[a, b, c]      |(3,[0,1,2],[1.0,1.0,1.0])|
|1  |[a, b, b, c, a]|(3,[0,1,2],[2.0,2.0,1.0])|
+---+---------------+-------------------------+

1 个答案:

答案 0 :(得分:0)

解决方案

我找到了一种访问此特定模型中数据的方法。

import org.apache.spark.ml.linalg.SparseVector

df_vectorized.select("features").rdd.map(_.getAs[SparseVector](0).size).take(2)
df_vectorized.select("features").rdd.map(_.getAs[SparseVector](0).indices).take(2)
df_vectorized.select("features").rdd.map(_.getAs[SparseVector](0).values).take(2)

我不知道这是否是实现这么简单的最好方法。

思想

我宁愿做以下事情:

case class MyData(
  id: Int,
  words: Array[String],
  features: (Int, Array[Int], Array[Double])
)

df_vectorized.as[MyData]

但是当我尝试这个时,我收到了以下错误:

java.lang.ClassCastException: org.apache.spark.ml.linalg.VectorUDT cannot be cast to org.apache.spark.sql.types.StructType

即使这样也不是很好,因为在这种情况下,要素元组的元素不会被命名。

无论如何,我认为这里的要点是你需要确定模型发布的数据类型,并希望它具有与之关联的访问方法。

即使识别数据类型也是运气。我碰巧尝试了以下内容:

df_vectorized.select("features").rdd.map(_.getAs[Seq[Any]](0).size).take(2)

得到了这个错误:

java.lang.ClassCastException: org.apache.spark.ml.linalg.SparseVector cannot be cast to scala.collection.SeqLike

请注意,当我尝试创建DataSet时,输出的类被称为 VectorUDT ,但当我使用RDD api时,现在称为 SparseVector

这就是我如何找到正确的数据类型。这真是令人讨厌,因为df_vectorized.schema的相关输出是 org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7

另外一个令人头痛的问题是,VectorUDT的描述为: Vector的用户定义类型,它允许通过org.apache.spark.sql.Dataset 轻松与SQL交互。也许它确实允许“轻松”#39;相互作用。我似乎无法解决这个问题。