应用错误收集

在RDD上执行操作[（LongWritable），（JsonObject）]

时间：2017-03-14 12:56:13

标签： scala hadoop apache-spark google-bigquery google-cloud-dataproc

我的任务基本上是：

使用Spark / Scala从Google Cloud BigQuery读取数据。
对数据执行一些操作（Like，Update）。
将数据写回BigQuery

到目前为止，我能够使用返回newAPIHadoopRDD()的{{1}}从BigQuery读取数据。

RDD[(LongWritable, JsonObject)]

以下是样本数据

tableData.map(entry => (entry._1.toString(),entry._2.toString()))
  .take(10)
  .foreach(println)

我无法弄清楚我应该在此RDD上使用哪些功能来满足要求。

我是否需要将此RDD转换为DataFrame / Dataset / JSON格式？怎么样？

0 个答案:

没有答案