Dse Graph加载器重复边缘

时间:2016-08-17 16:41:17

标签: datastax datastax-enterprise datastax-startup

我有以下csv文件:

一个是人,另一个是地址,一个是人地址连接(每个文件加一个标题一行)。出于第一次运行的测试目的,我有:

config create_schema:true,load_new:true,load_threads:3

顶点和边缘的导入是成功的。 (两个顶点和它们之间的一条边)

现在我运行相同的脚本(相同的数据,相同的输入脚本)但配置不同

config create_schema:false,load_new:false,load_threads:3

似乎节点没有改变但是节点有重复的边缘。 (两个顶点和相同节点之间的两条边)

这是我运行的代码:

inputfiledir = 'data/'
personInput = File.csv(inputfiledir + 'sna_person_test.csv').delimiter(',')
addressInput = File.csv(inputfiledir + 'sna_address_test.csv').delimiter(',')
personAddressInput = File.csv(inputfiledir + 'san_person_address_test.csv').delimiter(',')

load(personInput).asVertices {
    label "person"
    key "id"
}

load(addressInput).asVertices {
    label "address"
    key "id"
}

load(personAddressInput).asEdges {
    label "has_address"
    outV "person_id", {
        label "person"
        key "id"
    }
    inV "address_id", {
        label "address"
        key "id"
    }
}

有没有办法避免这种情况?

由于

1 个答案:

答案 0 :(得分:1)

这是由于边缘没有Id,这导致Graph Loader无法确定边缘是否实际上是重复的。这将导致后续加载复制边,但不复制顶点。