将Neo4j数据保存到Spark RDD(或)DataFrame

时间:2016-09-23 05:12:23

标签: python-2.7 apache-spark neo4j pyspark neo4j-bolt

我正在使用 Python 语言中的 Bolt Driver Neo4j 中检索数据。返回的结果应存储为RDD(或至少存储为CSV)。我能够看到返回的结果,但无法将其存储为RDD或数据帧或至少存储到csv中。

以下是我看到结果的方式:

session = driver.session()
result = session.run('MATCH (n) RETURN  n.hobby,id(n)')  
session.close()     

在这里,我如何将这些数据存储到RDD或CSV文件中。

2 个答案:

答案 0 :(得分:0)

我删除了旧帖并重新发布了相同的问题。但我没有收到任何指示。所以,我发布我的方法,以便它可以帮助别人。

progressDialog.setIcon();

高度赞赏任何提高效率的建议。

答案 1 :(得分:0)

为什么不使用Neo4j Spark connector而不是从python到spark?我认为如果移动大量数据,这将使python免于瓶颈。您可以将您的密码查询放在spark会话中并将其另存为RDD。

关于Pyspark实施的Neo4J松弛小组已经有人谈论过,希望能在今年秋天晚些时候推出。我知道从pyspark和sparkr查询neo4j的能力非常有用。