Neo4j - Cypher建立关系的声明花了将近一半的时间来完成错误"不允许自我抑制"

时间:2015-05-07 14:13:19

标签: neo4j cypher

通常我在从CSV文件加载时建立节点之间的关系。这是一个写cypher的语句,我这次用它来建立节点之间的关系。语言节点为39K,描述节点为2M。

MATCH (d:Description),(l:Language)
> WHERE d.description_language = l.language_name
> CREATE (d)-[r:HAS_LANGUAGE]->(l);

经过一段时间,运行我得到的错误是:

Self-suppression not permitted

我为关系中使用的属性创建了索引。

Indexes
... 
  ON :Description(woka_id)              ONLINE                             
  ON :Description(description_language) ONLINE                             
  ON :Language(language_id)             ONLINE (for uniqueness constraint) 
  ON :Language(language_name)           ONLINE (for uniqueness constraint) 
...

我在这里做错了导致这么长时间来完成关系创建(超过10个小时)?

2 个答案:

答案 0 :(得分:2)

您正在过滤步骤处理非常大的笛卡尔积:

WHERE d.description_language = l.language_name

您可以尝试MATCH Descriptions,按照description_languageCREATE之间的关系对其进行分组:

MATCH (d:Description)
WITH d.description_language AS dl, collect(d) as all_d_for_lang
MATCH (l:Language {language_name: dl})
UNWIND all_d_for_lang AS d
CREATE (l)-[:HAS_LANGUAGE]->(d)

如果您查看此查询的PROFILE,您会看到更少的数据库匹配(限制第一个MATCH中的描述数量以进行测试)。

一般来说,我认为最好的方法是在创建节点时使用CSV文件生成关系,即执行此应用程序端,而不是数据库。

答案 1 :(得分:1)

由于您正在从每个描述节点创建关系,并且其中有2M,我只想获取尚未匹配的描述并以较小的批次执行。

像...一样的东西。

match (d:Description)
where not ( d-[:HAS_LANGUAGE]->() )
with d
limit 200000
match (l:Language {language_name: d.description_language} )
create d-[:HAS_LANGUAGE]->l