如果行相同,OpenRefine会覆盖数据库中的唯一ID

时间:2019-05-31 16:18:39

标签: export uniqueidentifier openrefine grel

我从我的Postgresql数据库中以openrefine上传了一个数据集。在我的表中,我有一个主键“ id”。然后我继续以开放式优化的方式清理所有表,但是在提取的那一刻,我意识到某些ID号是相同的,应该是不可能的

所以输出的csv将以这样的ID开头

1
2
3
...
-> from row 265 it would go like this 
265
265
266
266
266
267
267
267
...
-> up until row 2456 (whose id is 1245, and from here starts again)
1245
1246
-> up until 4000 somthing - where it has a jump of several thousands. 
6234 

我想openrefine只会改写所有ID(丢失的ID),并将重复行的所有ID固定为列表中第一个ID。这也可能就是为什么当我以第一行的ID为265的方式打开项目时的原因-这是订购时的第一个重复项。

第一个问题是为什么,第二个问题是,知道openrefine的工作原理的人知道如何将其反转吗?

1 个答案:

答案 0 :(得分:0)

听起来很简单-错误在于将数据从postgresql导入OR中。我使用csv重新导入了数据,然后在UID列中为重复项设置了构面-发现使用pg从pg创建项目时,一半的记录被其他记录覆盖,而使用csv时,没有记录被覆盖。

结论:使用数据库连接在OR中创建项目存在错误,请不要使用它。