我正在使用gremlin scala和orientdb。我想用标签搜索所有顶点。我开始需要一定数量的顶点来获得一些结果(10秒或更长时间)。
我的问题是A上的操作比B上的操作慢,我不知道为什么。
g.V.hasLabel( “A”)。toList()
g.V.has( “类”, “A”)。toList()
g.V.hasLabel( “B”)。toList()
g.V.has( “类”, “B”)。toList()
在this thread中写到了这一点。它很慢,因为它就像全表扫描一样。但看起来它需要g.V步骤中的所有顶点并在此之后开始排序。
答案 0 :(得分:2)
大多数图表数据库不会优化仅依赖于顶点标签的遍历。这可能是这种情况,因为您获得了顶点的完整列表,然后在内存中的标签上进行过滤。如果OrientDB能够按标签快速检索计数,则应修改orientdb-gremlin以支持该功能并公开该功能。
Apache TinkerPop允许图形数据库通过TraversalStrategy
实现公开其优势和独特特征。策略在执行之前进行遍历,并允许图形数据库根据其功能对其进行优化。
例如,考虑TinkerGraph - 它能够快速获得全局计数,因为它由内存中Map
支持。所以我们开发了TinkerGraphCountStrategy,用可以直接访问count()
的TinkerGraph优化版替换标准Map
步骤。当针对TinkerGraph执行g.V().count()
(或g.E().count()
)的变体时,不再进行全表扫描 - 您只需立即计数。