Spark DataFrame实例是一个新列

时间:2016-11-28 17:22:00

标签: scala apache-spark spark-dataframe

我有一个数据框,我的第一个Column上的groupByKey有一个字符串数组,我想在我的数据帧的新列中实例一个新对象。

+-----------+-----------------------------------------------------------+
|name       |Thing                                                      |
+-----------+-----------------------------------------------------------+
|253        |[a, b, c, d, e]                                            |
|095        |[f, g]                                                     |
|282        |[h, i, j]                                                  |
+-----------+-----------------------------------------------------------+

我的对象是我将具有这种结构:

public MyObject(String name,
               String[] Thing)

我定义了一个caseclass来使用DataFrame:

 case class Myclass(name: String, Thing: Array[String])

为了实现这个目标,我使用UDF函数:

  def myFunction(name : String, Thing: Array[String]): MyObject= {
  return new MyObject(name , Thing)
}

我的代码是这样的:

var my_df = my_old_df.map(line=>(line(0).asInstanceOf[String],line(1).asInstanceOf[String]))
  .groupByKey()

val my_next_df : DataFrame= my_df.map(line => Myclass(line._1.toString,line._2.toArray)).toDF()

val myudf= sqlContext.udf.register("myudf", myFunction _)

val my_df_problem  = my_next_df.withColumn("Object", myudf($"name", $"Thing"))

我有instanciation问题:java.lang.UnsupportedOperationException:不支持类型Library.class的架构

1 个答案:

答案 0 :(得分:1)

似乎UDF必须返回Write-Host "Checking" \\SERVER1\log\Completed_Summary_*.html 类型。

MyClass