如何在PySpark应用程序中读取和写入Google Cloud Bigtable中的数据?

时间:2016-11-02 03:02:20

标签: apache-spark pyspark google-cloud-dataproc google-cloud-bigtable

我在Google Cloud Dataproc群集上使用Spark,我想在PySpark作业中访问Bigtable。我们是否像Spark BigQuery连接器那样拥有Spark的Bigtable连接器?

我们如何从PySpark应用程序访问Bigtable?

1 个答案:

答案 0 :(得分:4)

Cloud Bigtable通常最好使用Apache HBase APIs从Spark访问。

HBase目前仅提供Hadoop MapReduce I / O格式。可以使用SparkContext.newAPIHadoopRDD方法从Spark(或PySpark)访问这些。但是,将记录转换为Python中可用的内容很困难。

HBase正在开发Spark SQL API,但这些API尚未集成到已发布的版本中。 Hortonworks有Spark HBase Connector,但是它针对Spark 1.6(需要Cloud Dataproc 1.0版)进行编译,而我还没有使用它,所以我不能说它是多么容易使用。

或者你可以使用基于Python的Bigtable客户端,只需使用PySpark进行并行化。