Question

我从我的Postgresql数据库中以openrefine上传了一个数据集。在我的表中，我有一个主键“ id”。然后我继续以开放式优化的方式清理所有表，但是在提取的那一刻，我意识到某些ID号是相同的，应该是不可能的。

所以输出的csv将以这样的ID开头

1
2
3
...
-> from row 265 it would go like this 
265
265
266
266
266
267
267
267
...
-> up until row 2456 (whose id is 1245, and from here starts again)
1245
1246
-> up until 4000 somthing - where it has a jump of several thousands. 
6234

我想openrefine只会改写所有ID（丢失的ID），并将重复行的所有ID固定为列表中第一个ID。这也可能就是为什么当我以第一行的ID为265的方式打开项目时的原因-这是订购时的第一个重复项。

第一个问题是为什么，第二个问题是，知道openrefine的工作原理的人知道如何将其反转吗？

Answer 1

听起来很简单-错误在于将数据从postgresql导入OR中。我使用csv重新导入了数据，然后在UID列中为重复项设置了构面-发现使用pg从pg创建项目时，一半的记录被其他记录覆盖，而使用csv时，没有记录被覆盖。

结论：使用数据库连接在OR中创建项目存在错误，请不要使用它。

如果行相同，OpenRefine会覆盖数据库中的唯一ID

1 个答案: