我有大量数据(英国和美国邮政地址)100,000+,包含重复或ALMOST相同的数据行(包含5列)
在几乎相同的行中,五列中的四列具有完全匹配的数据
例如:-
AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222
AAAA BBBB CCCCCC CCCCCCCC 11.111 22.222
DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444
DDDD EEEE FF FFFFF FFFFF 33.33 44.444
GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666
GGGG HHHH IIII IIIII 55.555 66.666
我正在尝试使用Google Refine删除这些重复(或接近重复的行)
我只是无法管理它
我最终想要的是: -
AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222
DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444
GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666
例如使用" Shorter"放弃列。数据长度
答案 0 :(得分:1)
您可以通过以下步骤实现此目的 -
1.排在第1列
2.在第2栏排序
3.在第4栏排序
4.按第5栏排序
5.永久重新排序行(在顶部打开)
现在你会看到 - 所有行都是永久排序的。
在第1列上留空。
结果将是 -
================================================== =============
AAAA BBBB CCCCCC CCCCCCCC CCCCCCCC 11.111 22.222
BBBB CCCCCC CCCCCCCC 11.111 22.222
DDDD EEEE FF FFFFF FFFFF FFFFFFFFF 33.33 44.444
EEEE FF FFFFF FFFFF 33.33 44.444
GGGG HHHH IIII IIIII IIIIIIII 55.555 66.666
HHHH IIII IIIII 55.555 66.666
===================================================================
现在选择第一列中包含空白的所有行并删除所有行。