我在Google Cloud Dataproc群集上使用Spark,我想在PySpark作业中访问Bigtable。我们是否像Spark BigQuery连接器那样拥有Spark的Bigtable连接器?
我们如何从PySpark应用程序访问Bigtable?
答案 0 :(得分:4)
Cloud Bigtable通常最好使用Apache HBase APIs从Spark访问。
HBase目前仅提供Hadoop MapReduce I / O格式。可以使用SparkContext.newAPIHadoopRDD
方法从Spark(或PySpark)访问这些。但是,将记录转换为Python中可用的内容很困难。
HBase正在开发Spark SQL API,但这些API尚未集成到已发布的版本中。 Hortonworks有Spark HBase Connector,但是它针对Spark 1.6(需要Cloud Dataproc 1.0版)进行编译,而我还没有使用它,所以我不能说它是多么容易使用。
或者你可以使用基于Python的Bigtable客户端,只需使用PySpark进行并行化。