高效的 ArangoDB AQL 查询,可以找到集合中所有去往和来自同一文档的边

时间:2021-04-22 17:44:04

标签: arangodb aql

我有一个包含两个集合的 ArangoDB,一个用于文档,一个用于 Edge,我想要一个高效的查询,它只能返回共享相同 _to_from 值的 Edge。

例如,假设我的文档集合包含 A、B、C 和 D。 我们还假设我的 Edges 集合包含 X、Y 和 Z。

边 X 是 _from A 和 _to B。

边 Y 也是 _from A 和 _to B。

边 Z 是 _from C 和 _to D。

但是,我不知道 X 和 Y 基本上是同一个 Edge,也不知道共享相似 Edge 的 Document 是 A & B。我的查询是找出这些重复的 Edge。

到目前为止我所拥有的看起来像这样:

FOR ec1 IN edge_collection
    FOR ec2 IN edge_collection
        FILTER ec1._key != ec2._key AND ec1._to == ec2._to AND ec1._from == ec2._from
        RETURN ec1

这似乎有效,尽管它也感觉非常低效。有没有更好的方法来做到这一点,或者这是 AQL 的最佳解决方案?

2 个答案:

答案 0 :(得分:1)

经过更多的挖掘,我发现了一种使用 COLLECT 语句速度明显更快的方法。

另外,完全公开,这是我在 this other answer 的基础上构建的。

LET duplicates = (
    FOR ec IN edge_collection
        COLLECT from = ec._from, to = ec._to WITH COUNT INTO count
        FILTER count > 1
        RETURN {
            from: from,
            to: to,
            count: count
        }
)

FOR d IN duplicates
    FOR ec IN edge_collection
        FILTER d.from == ec._from AND d.to == ec._to
        RETURN ec

编辑:

基于@CodeManX 的回答,我的最终目标是能够删除或REMOVE 这些重复值。如果有人带着类似的目标偶然发现了这一点,这可能会有所帮助:

LET duplicates = (
    FOR ec IN edge_collection
        COLLECT from = ec._from, to = ec._to AGGREGATE count = LENGTH(1) INTO edges = ec._key
        FILTER count > 1
        RETURN { from, to, count, edges }
)

FOR d IN duplicates
    LET key_to_delete = FIRST(d.edges)
    REMOVE { _key: key_to_delete } IN edge_collection

答案 1 :(得分:1)

您可以按 _from_to 分组,计算每组有多少边,并过滤掉唯一的组合:

FOR ec IN edge_collection
  COLLECT from = ec._from, to = ec._to WITH COUNT INTO count
  FILTER count > 1
  RETURN { from, to, count }

或者如果您还想返回边缘键:

FOR ec IN edge_collection
  COLLECT from = ec._from, to = ec._to INTO edges = ec._key
  LET count = LENGTH(edges)
  FILTER count > 1
  RETURN { from, to, count, edges }

或者使用聚合而不是后计算:

FOR ec IN edge_collection
  COLLECT from = ec._from, to = ec._to AGGREGATE count = LENGTH(1) INTO edges = ec._key
  FILTER count > 1
  RETURN { from, to, count, edges }

要返回完整的边,请改用 INTO edges = ec。您也可以只使用 INTO edges,但每个边都将嵌套在对象 {"ec": … } 中。

相关问题