在Microsoft Azure中,我们可以在Azure HDInsight中创建Spark群集,并在Azure HDInsight中创建Hbase群集。现在我创建了这两种集群。对于Spark集群,我可以从csv文件创建一个数据框并运行这样的SQL查询(下面的查询在Jupyter笔记本中执行):
%%sql
SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
与此同时,在spark shell中,我可以创建一个连接到另一个HBase集群的连接器来查询该HBase中的数据表,如下所示:
val query = spark.sqlContext.sql("select personalName, officeAddress from contacts")
query.show()
所以,我的问题是有没有办法对这两个表进行连接操作?例如:
select * from hvac a inner join contacts b on a.id = b.id
我只是在Microsoft Azure中引用以下2个文档:
Use Spark to read and write HBase data
对此有何想法或建议?