如何在Azure中的Spark Cluster中使用Hbase数据查询和加入csv数据

时间:2018-06-10 09:42:16

标签: azure apache-spark pyspark hbase

在Microsoft Azure中,我们可以在Azure HDInsight中创建Spark群集,并在Azure HDInsight中创建Hbase群集。现在我创建了这两种集群。对于Spark集群,我可以从csv文件创建一个数据框并运行这样的SQL查询(下面的查询在Jupyter笔记本中执行):

%%sql
SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"

与此同时,在spark shell中,我可以创建一个连接到另一个HBase集群的连接器来查询该HBase中的数据表,如下所示:

val query = spark.sqlContext.sql("select personalName, officeAddress from contacts")
query.show()    

所以,我的问题是有没有办法对这两个表进行连接操作?例如:

select * from hvac a inner join contacts b on a.id = b.id

我只是在Microsoft Azure中引用以下2个文档:

Run queries on Spark Cluster

Use Spark to read and write HBase data

对此有何想法或建议?

0 个答案:

没有答案