因此,我已将movieLens数据集加载到了图形中。它具有三个节点:USER,MOVIE和GENRE。我正在尝试构建本教程(https://neo4j.com/graphgist/movie-recommendations-with-k-nearest-neighbors-and-cosine-similarity#_initial_data_model)中的推荐引擎。我已经复制并粘贴了查询3中的代码,并为我的图形对其进行了调整:
import sqlContext.implicits._
df.sort($"column_name".asc)
此代码在所有用户对之间建立了一个称为“相似度”(具有相似度得分)的关系。
但是,当我执行代码(我正在使用python驱动程序)时,程序就一直在运行。我打开了neo4j Web界面,发现服务器不断丢失并重新建立连接。最终我退出了帐户。
我的一位同事在他的机器上运行了完全相同的代码,并在几分钟内执行了查询。
我还在neo4j / conf中设置了MATCH (p1:USER)-[x:Has_rated]->(m:MOVIE)<-[y:Has_rated]-(p2:USER)
WITH SUM(x.rating * y.rating) AS xyDotProduct,
SQRT(REDUCE(xDot = 0.0, a IN COLLECT(x.rating) | xDot + a^2)) AS xLength,
SQRT(REDUCE(yDot = 0.0, b IN COLLECT(y.rating) | yDot + b^2)) AS yLength,
p1, p2
MERGE (p1)-[s:SIMILARITY]-(p2)
SET s.similarity = xyDotProduct / (xLength * yLength)
。我该怎么办?为什么要花这么长时间运行?