应用错误收集

我想合并来自neo4j和hbase的数据。经过谷歌搜索后，我决定使用Apache Spark（或者有更好的方法来做这个我错过了吗？）。我使用hbase-spark和neo4j-spark connectors来获取数据并获取RDD。

我想知道的是，加入这两个RDD会在群集中的不同机器上并行发生吗？我知道我可能必须在与hbase区域相同的机器上运行spark执行器（而且我必须避免像collect那样获取spark驱动程序节点上的所有数据的方法）。问题出在neo4j上。在驱动程序上从neo4j获取数据，对吧？那么加入将如何并行发生？火花rdd会透明地处理它吗？或者我必须明确地做一些配置？或者我理解这一切都是错的，整个事情（在不同的机器上并行加入）根本无法实现？

使用Apache spark合并Neo4j和HBase数据

0 个答案: