graph - 如何减少Titan中两个Vertex之间相同边缘标签的数量

当你说＆＃34;千＆＃34;在USER和IP之间的边缘，你认为它实际上可能是＆＃34;数百万＆＃34;或者＆＃34;数千万＆＃34;或者更多？如果没有，那么＆＃34;数千＆＃34;对{4}}的泰坦来说不应该是个问题。索引边缘属性，您应该快速排序和遍历。

当你开始深入了解数百万＆＃34;时，你可能会开始遇到一些问题 - 对于我来说，一直处理全局查询，使用titan-hadoop作为顶点并且必须保持其边缘在记忆中。当您进行全局分析时，这可能会导致一些麻烦。从操作角度来看，Titan总是很乐意在顶点上保持数百万的边缘，但我倾向于避免它。当然，我在Titan 1.0中的vertex centric indices之前就已经有了很多这方面的经验：

剪切顶点意味着存储该顶点邻接的子集列表中的每个分区。换句话说，顶点和它的邻接列表被分割，从而有效地分发在集群中的所有实例上加载该单个顶点并删除热点。

当您开始将超级节点发展为数百万时，您可能会尝试使用

。

我认为数百万边缘的超级节点的另一个选择是围绕它建模。也许您在USER和IP之间引入了一些结构。将单个LOGIN边缘转换为可能在它们之间引入时间概念的某些顶点/边缘，如：

USER - ＆gt; LOGIN_YEAR - ＆gt; LOGIN_MONTH - ＆gt; IP

现在，不是在USER和IP之间只创建一条边，而是创建一个LOGIN_YEAR顶点和一个LOGIN_MONTH顶点。

如何减少Titan中两个Vertex之间相同边缘标签的数量

1 个答案: