我只是厌倦了使用join
命令而没有获得所需的结果,并且它返回了一些错误。
我还在这里和SuperUser中阅读了与join
命令相关的所有查询,但无法取得成功。
如何使用join
或awk
?
file1.csv
autoid|Mycolumn
5|Odhav, Gujarat, 380010
7|Navrangpura, Gujarat, 380009
16|Kalupur, Gujarat, 380002
32|Naroda, Gujarat, 380025
62|Khamasa, Gujarat, 380001
73|Sola Road, Gujarat, 380063
74|Railwaypura, Gujarat, 380002
78|Meghaninagar, Gujarat, 380016
85|Thaltej, Gujarat, 380054
file2.csv
5|Odhav, Gujarat, 380010|22.406347|73.824345
7|Navrangpura, Gujarat, 380009|22.328403|73.881841
16|Kalupur, Gujarat, 380002|22.379901|73.814217
32|Naroda, Gujarat, 380025|22.417059|73.887806
38|Raikhad, Gujarat, 380001|22.491544|73.782878
39|Ashram Road, Gujarat, 380006|22.279248|73.846393
44|Raipur, Gujarat, 380002|22.346186|73.87462
56|Jamalpur, Gujarat, 380022|22.518504|73.785024
58|Patharkuva, Gujarat, 380001|22.308473|73.825071
62|Khamasa, Gujarat, 380001|22.100711|73.707207
73|Sola Road, Gujarat, 380063|22.026236|73.732926
74|Railwaypura, Gujarat, 380002|21.992994|73.86893
78|Meghaninagar, Gujarat, 380016|21.955106|73.878629
85|Thaltej, Gujarat, 380054|21.989253|73.735725
我正在使用此命令,但无法获得所需的结果:
$ join -t'|' -1 2 -2 2 <(sort -k2 Areaprob.csv) <(sort -k2 Com_remoteArea.csv)>output.csv
它返回这样的东西;正如您所看到的,我已经在使用上面给出的sort
join
命令。
join: file 1 is not in sorted order
join: file 2 is not in sorted order
我的output.csv
看起来像这样 - 并且它不会将所有9条记录都返回为file1.csv
Mycolumn|autoid|autoid|Gis_lat|Gis_long
Khamasa, Gujarat, 380001|62|62|22.100711|73.707207
Railwaypura, Gujarat, 380002|74|74|21.992994|73.86893
Thaltej, Gujarat, 380054|85|85|21.989253|73.735725
Sola Road, Gujarat, 380063|73|73|22.026236|73.732926
答案 0 :(得分:2)
你忘了告诉sort
分隔符。试试sort -t'|' -k2
:
$ join -t'|' -j2 <(sort -t'|' -k2 file1) <(sort -t'|' -k2 file2)
Kalupur, Gujarat, 380002|16|16|22.379901|73.814217
Khamasa, Gujarat, 380001|62|62|22.100711|73.707207
Meghaninagar, Gujarat, 380016|78|78|21.955106|73.878629
Naroda, Gujarat, 380025|32|32|22.417059|73.887806
Navrangpura, Gujarat, 380009|7|7|22.328403|73.881841
Odhav, Gujarat, 380010|5|5|22.406347|73.824345
Railwaypura, Gujarat, 380002|74|74|21.992994|73.86893
Sola Road, Gujarat, 380063|73|73|22.026236|73.732926
Thaltej, Gujarat, 380054|85|85|21.989253|73.735725
注意:您可以在两个文件中加入字段2时使用-j2
。
修改强>
如果您想保留标题,则需要awk
:
awk -F'|' 'NR==1;FNR==NR{a[$2];next}$2 in a{print $2,$3,$4}' OFS='|' file1 file2
autoid|Mycolumn
Odhav, Gujarat, 380010|22.406347|73.824345
Navrangpura, Gujarat, 380009|22.328403|73.881841
Kalupur, Gujarat, 380002|22.379901|73.814217
Naroda, Gujarat, 380025|22.417059|73.887806
Khamasa, Gujarat, 380001|22.100711|73.707207
Sola Road, Gujarat, 380063|22.026236|73.732926
Railwaypura, Gujarat, 380002|21.992994|73.86893
Meghaninagar, Gujarat, 380016|21.955106|73.878629
Thaltej, Gujarat, 380054|21.989253|73.735725
答案 1 :(得分:1)
这有帮助吗?
awk -F'|' -vOFS="|" 'NR==FNR{a[$0];next} $1FS$2 in a{print $2,$3,$4}' file1 file2
或
awk -F'|' -vOFS="|" 'NR==FNR{a[$1];next} $1 in a{print $2,$3,$4}' file1 file2
上面的两个awk oneliner给出了同样的结果
输出基于您当前的示例输入。 (没有标题):
Odhav, Gujarat, 380010|22.406347|73.824345
Navrangpura, Gujarat, 380009|22.328403|73.881841
Kalupur, Gujarat, 380002|22.379901|73.814217
Naroda, Gujarat, 380025|22.417059|73.887806
Khamasa, Gujarat, 380001|22.100711|73.707207
Sola Road, Gujarat, 380063|22.026236|73.732926
Railwaypura, Gujarat, 380002|21.992994|73.86893
Meghaninagar, Gujarat, 380016|21.955106|73.878629
Thaltej, Gujarat, 380054|21.989253|73.735725
标题是固定文字,您可以自己添加。
答案 2 :(得分:0)
您还需要使用sort
的分隔符。以下应该有效:
join -t'|' -1 2 -2 2 <(sort -t '|' -k2 Areaprob.csv) <(sort -t'|' -k2 Com_remoteArea.csv) > output.csv
您的sort命令从第二列开始对文件进行排序,而不是在'|'之后开始