使用Apache spark合并Neo4j和HBase数据

时间:2018-05-15 07:08:50

标签: apache-spark neo4j hbase

我想合并来自neo4j和hbase的数据。经过谷歌搜索后,我决定使用Apache Spark(或者有更好的方法来做这个我错过了吗?)。我使用hbase-sparkneo4j-spark connectors来获取数据并获取RDD。

我想知道的是,加入这两个RDD会在群集中的不同机器上并行发生吗?我知道我可能必须在与hbase区域相同的机器上运行spark执行器(而且我必须避免像collect那样获取spark驱动程序节点上的所有数据的方法)。问题出在neo4j上。在驱动程序上从neo4j获取数据,对吧?那么加入将如何并行发生?火花rdd会透明地处理它吗?或者我必须明确地做一些配置?或者我理解这一切都是错的,整个事情(在不同的机器上并行加入)根本无法实现?

0 个答案:

没有答案