我想合并来自neo4j和hbase的数据。经过谷歌搜索后,我决定使用Apache Spark(或者有更好的方法来做这个我错过了吗?)。我使用hbase-spark和neo4j-spark connectors来获取数据并获取RDD。
我想知道的是,加入这两个RDD会在群集中的不同机器上并行发生吗?我知道我可能必须在与hbase区域相同的机器上运行spark执行器(而且我必须避免像collect
那样获取spark驱动程序节点上的所有数据的方法)。问题出在neo4j上。在驱动程序上从neo4j获取数据,对吧?那么加入将如何并行发生?火花rdd会透明地处理它吗?或者我必须明确地做一些配置?或者我理解这一切都是错的,整个事情(在不同的机器上并行加入)根本无法实现?