在第二个字段上加入未分类的文件

时间:2013-03-20 12:57:41

标签: linux bash unix join awk

我只是厌倦了使用join命令而没有获得所需的结果,并且它返回了一些错误。

我还在这里和SuperUser中阅读了与join命令相关的所有查询,但无法取得成功。

如何使用joinawk

file1.csv
autoid|Mycolumn
5|Odhav, Gujarat, 380010
7|Navrangpura, Gujarat, 380009
16|Kalupur, Gujarat, 380002
32|Naroda, Gujarat, 380025
62|Khamasa, Gujarat, 380001
73|Sola Road, Gujarat, 380063
74|Railwaypura, Gujarat, 380002
78|Meghaninagar, Gujarat, 380016
85|Thaltej, Gujarat, 380054

file2.csv
5|Odhav, Gujarat, 380010|22.406347|73.824345
7|Navrangpura, Gujarat, 380009|22.328403|73.881841
16|Kalupur, Gujarat, 380002|22.379901|73.814217
32|Naroda, Gujarat, 380025|22.417059|73.887806
38|Raikhad, Gujarat, 380001|22.491544|73.782878
39|Ashram Road, Gujarat, 380006|22.279248|73.846393
44|Raipur, Gujarat, 380002|22.346186|73.87462
56|Jamalpur, Gujarat, 380022|22.518504|73.785024
58|Patharkuva, Gujarat, 380001|22.308473|73.825071
62|Khamasa, Gujarat, 380001|22.100711|73.707207
73|Sola Road, Gujarat, 380063|22.026236|73.732926
74|Railwaypura, Gujarat, 380002|21.992994|73.86893
78|Meghaninagar, Gujarat, 380016|21.955106|73.878629
85|Thaltej, Gujarat, 380054|21.989253|73.735725

我正在使用此命令,但无法获得所需的结果:

$ join -t'|' -1 2 -2 2 <(sort -k2 Areaprob.csv) <(sort -k2 Com_remoteArea.csv)>output.csv

它返回这样的东西;正如您所看到的,我已经在使用上面给出的sort join命令。

join: file 1 is not in sorted order
join: file 2 is not in sorted order

我的output.csv看起来像这样 - 并且它不会将所有9条记录都返回为file1.csv

Mycolumn|autoid|autoid|Gis_lat|Gis_long
Khamasa, Gujarat, 380001|62|62|22.100711|73.707207
Railwaypura, Gujarat, 380002|74|74|21.992994|73.86893
Thaltej, Gujarat, 380054|85|85|21.989253|73.735725
Sola Road, Gujarat, 380063|73|73|22.026236|73.732926

3 个答案:

答案 0 :(得分:2)

你忘了告诉sort分隔符。试试sort -t'|' -k2

$ join -t'|' -j2 <(sort -t'|' -k2 file1) <(sort -t'|' -k2 file2)
Kalupur, Gujarat, 380002|16|16|22.379901|73.814217
Khamasa, Gujarat, 380001|62|62|22.100711|73.707207
Meghaninagar, Gujarat, 380016|78|78|21.955106|73.878629
Naroda, Gujarat, 380025|32|32|22.417059|73.887806
Navrangpura, Gujarat, 380009|7|7|22.328403|73.881841
Odhav, Gujarat, 380010|5|5|22.406347|73.824345
Railwaypura, Gujarat, 380002|74|74|21.992994|73.86893
Sola Road, Gujarat, 380063|73|73|22.026236|73.732926
Thaltej, Gujarat, 380054|85|85|21.989253|73.735725

注意:您可以在两个文件中加入字段2时使用-j2


修改

如果您想保留标题,则需要awk

awk -F'|' 'NR==1;FNR==NR{a[$2];next}$2 in a{print $2,$3,$4}' OFS='|' file1 file2
autoid|Mycolumn
Odhav, Gujarat, 380010|22.406347|73.824345
Navrangpura, Gujarat, 380009|22.328403|73.881841
Kalupur, Gujarat, 380002|22.379901|73.814217
Naroda, Gujarat, 380025|22.417059|73.887806
Khamasa, Gujarat, 380001|22.100711|73.707207
Sola Road, Gujarat, 380063|22.026236|73.732926
Railwaypura, Gujarat, 380002|21.992994|73.86893
Meghaninagar, Gujarat, 380016|21.955106|73.878629
Thaltej, Gujarat, 380054|21.989253|73.735725

答案 1 :(得分:1)

这有帮助吗?

awk -F'|' -vOFS="|" 'NR==FNR{a[$0];next} $1FS$2 in a{print $2,$3,$4}' file1 file2

 awk -F'|' -vOFS="|" 'NR==FNR{a[$1];next} $1 in a{print $2,$3,$4}' file1 file2
上面的两个awk oneliner给出了同样的结果 输出基于您当前的示例输入。 (没有标题):

Odhav, Gujarat, 380010|22.406347|73.824345
Navrangpura, Gujarat, 380009|22.328403|73.881841
Kalupur, Gujarat, 380002|22.379901|73.814217
Naroda, Gujarat, 380025|22.417059|73.887806
Khamasa, Gujarat, 380001|22.100711|73.707207
Sola Road, Gujarat, 380063|22.026236|73.732926
Railwaypura, Gujarat, 380002|21.992994|73.86893
Meghaninagar, Gujarat, 380016|21.955106|73.878629
Thaltej, Gujarat, 380054|21.989253|73.735725

标题是固定文字,您可以自己添加。

答案 2 :(得分:0)

您还需要使用sort的分隔符。以下应该有效:

join -t'|' -1 2 -2 2 <(sort -t '|' -k2 Areaprob.csv) <(sort -t'|' -k2 Com_remoteArea.csv) > output.csv

您的sort命令从第二列开始对文件进行排序,而不是在'|'之后开始