在RDD上执行操作[(LongWritable),(JsonObject)]

时间:2017-03-14 12:56:13

标签: scala hadoop apache-spark google-bigquery google-cloud-dataproc

我的任务基本上是:

  1. 使用Spark / Scala从Google Cloud BigQuery读取数据。

  2. 对数据执行一些操作(Like,Update)。

  3. 将数据写回BigQuery

  4. 到目前为止,我能够使用返回newAPIHadoopRDD()的{​​{1}}从BigQuery读取数据。

    RDD[(LongWritable, JsonObject)]

    以下是样本数据

    tableData.map(entry => (entry._1.toString(),entry._2.toString()))
      .take(10)
      .foreach(println)
    

    我无法弄清楚我应该在此RDD上使用哪些功能来满足要求。

    我是否需要将此RDD转换为DataFrame / Dataset / JSON格式?怎么样?

0 个答案:

没有答案