我从我的Postgresql数据库中以openrefine上传了一个数据集。在我的表中,我有一个主键“ id”。然后我继续以开放式优化的方式清理所有表,但是在提取的那一刻,我意识到某些ID号是相同的,应该是不可能的。
所以输出的csv将以这样的ID开头
1
2
3
...
-> from row 265 it would go like this
265
265
266
266
266
267
267
267
...
-> up until row 2456 (whose id is 1245, and from here starts again)
1245
1246
-> up until 4000 somthing - where it has a jump of several thousands.
6234
我想openrefine只会改写所有ID(丢失的ID),并将重复行的所有ID固定为列表中第一个ID。这也可能就是为什么当我以第一行的ID为265
的方式打开项目时的原因-这是订购时的第一个重复项。
第一个问题是为什么,第二个问题是,知道openrefine的工作原理的人知道如何将其反转吗?
答案 0 :(得分:0)
听起来很简单-错误在于将数据从postgresql导入OR中。我使用csv重新导入了数据,然后在UID列中为重复项设置了构面-发现使用pg从pg创建项目时,一半的记录被其他记录覆盖,而使用csv时,没有记录被覆盖。
结论:使用数据库连接在OR中创建项目存在错误,请不要使用它。