OrientDB ETL:寻找缺乏优势的高效解决方法:skipDuplicates选项

时间:2016-01-07 16:06:37

标签: etl orientdb

我尝试了转换{“edge”:{“class”:“my_edge”,“skipDuplicates”:true}} ...然后注意到文档在版本2.2中有它。 (从现在开始发布4个!?)

我有点坚持一个可行的解决方案。我有一个平面文件,我试图突破大约5个不同的对象。 (从最终用户获取数据时必须处理的事项)。

我希望顶点上的skipDuplicates选项会绕过剩余的变换,但没有这样的运气。

我可以使用阻止或命令解决方法吗?我不认为SQL查找会起作用,因为该批次的其他边缘尚未提交。

顺便说一句,我也注意到当我试图破解边缘索引时,我最终陷入某种无限循环......

感谢您的帮助。

使用示例更新 - 我正在使用2.1.8

这是配置的基础

    {
        "transformers" : [
             { "merge": { "joinFieldName":"Document_ID", "lookup":"Article.Document_ID" } },
             { "vertex": { "class": "Article" , "skipDuplicates":true } },
             { "edge": { "class":"belongs_to", "skipDuplicates":true, "direction":"out","joinFieldName": "Journal_ID", "lookup":"Journal.Journal_ID", "unresolvedLinkAction":"CREATE"} },
            ...
         ]
    }

//and of course, I've listed the classes and indexes within the orientdb loader
    "classes":[
        { "name":"Content", "extends":"V" },
        { "name":"Article", "extends":"Content" },
        { "name":"belongs_to", "extends":"E" }
    ],
    "indexes": [
        {"class":"Article", "fields":["Document_ID:string"], "type":"UNIQUE" }
    ]

0 个答案:

没有答案