我的任务基本上是:
使用Spark / Scala从Google Cloud BigQuery读取数据。
对数据执行一些操作(Like,Update)。
将数据写回BigQuery
到目前为止,我能够使用返回newAPIHadoopRDD()
的{{1}}从BigQuery读取数据。
RDD[(LongWritable, JsonObject)]
以下是样本数据
tableData.map(entry => (entry._1.toString(),entry._2.toString()))
.take(10)
.foreach(println)
我无法弄清楚我应该在此RDD上使用哪些功能来满足要求。
我是否需要将此RDD转换为DataFrame / Dataset / JSON格式?怎么样?