如何使用多列转换数据框 我可以得到RDD [org.apache.spark.sql.Row],但是我需要一些可以用于org.apache.spark.mllib.fpm.FPGrowth的东西,ei RDD [Array [String]] 如何转换?
df.head
org.apache.spark.sql.Row = [blabla,128323,23843,11.23,blabla,null,null,..]
df.printSchema
|-- source: string (nullable = true)
|-- b1: string (nullable = true)
|-- b2: string (nullable = true)
|-- b3: long (nullable = true)
|-- amount: decimal(30,2) (nullable = true)
and so on
由于
答案 0 :(得分:5)
问题含糊不清,但一般来说,您可以通过Sequence将RDD从Row更改为Array。以下代码将获取RDD中的所有列,将它们转换为字符串,并将它们作为数组返回。
df.first
res1: org.apache.spark.sql.Row = [blah1,blah2]
df.map { _.toSeq.map {_.toString}.toArray }.first
res2: Array[String] = Array(blah1, blah2)
然而,这可能不足以让它以你想要的方式与MLib一起工作,因为你没有提供足够的细节,但这是一个开始。