应用错误收集

时间：2016-11-02 03:02:20

标签： apache-spark pyspark google-cloud-dataproc google-cloud-bigtable

我在Google Cloud Dataproc群集上使用Spark，我想在PySpark作业中访问Bigtable。我们是否像Spark BigQuery连接器那样拥有Spark的Bigtable连接器？

我们如何从PySpark应用程序访问Bigtable？

答案 0 :(得分：4)

Cloud Bigtable通常最好使用Apache HBase APIs从Spark访问。

HBase目前仅提供Hadoop MapReduce I / O格式。可以使用SparkContext.newAPIHadoopRDD方法从Spark（或PySpark）访问这些。但是，将记录转换为Python中可用的内容很困难。

HBase正在开发Spark SQL API，但这些API尚未集成到已发布的版本中。 Hortonworks有Spark HBase Connector，但是它针对Spark 1.6（需要Cloud Dataproc 1.0版）进行编译，而我还没有使用它，所以我不能说它是多么容易使用。

或者你可以使用基于Python的Bigtable客户端，只需使用PySpark进行并行化。