openrefine / googlerefine-调和两个数据集

时间:2018-11-23 11:38:18

标签: openrefine google-refine

我的情况是有两个json文件:文件A包含不同的数据,其中一个包含数字id。文件B包含与增值税号链接的所有可能的数字ID。在rdf最终文件中,我想替换第一个文件的ID列,或用关联的增值税号添加另一列。任何建议都欢迎,谢谢

编辑:file一个结构(它是一个像这样的数据数组)。 “供应商”字段始终包含一个值,这是我之前提到的id参数

{
    "coupon_number": 25422,
    "url": "xxx",
    "title": "Lorem ipsum dolor sit amet, duo ei accusam aliquando rationibus, sed id dolor sensibus delicatissimi.",
    "suppliers": [
        3043
    ],
}

文件B结构(另一个数组)

{
    "id": 3043,
    "vatNumber": "03918590401",
}

我需要用增值税号链接“供应商”或用增值税号代替

1 个答案:

答案 0 :(得分:0)

基本上,您必须基于Json文件创建两个项目,然后在它们之间执行一种Vlookup

您提到了一篇博客文章,该文章解释了如何使用cell.cross()函数在OpenRefine中进行联接,但是这种方法已不再使用。大多数用户都下载了Vib-Bit plugin(可以从此页面下载的第一个),使您可以直观地加入他们。

只需将插件解压缩到OpenRefine目录的webapps \ extensions文件夹中,重新启动OpenRefine,然后选中“编辑列”->“从另一个项目添加列”。

重要细节:在进行联接之前,将包含数字(绿色)的公共列转换为字符串(黑色)。

以下截屏显示了操作。

enter image description here