BASH:根据公共字段名称加入2个CSV文件

时间:2015-02-27 08:58:53

标签: bash csv join awk grep

我有2个CSV文件,我需要使用BASH加入它们:

file_1.csv columns: 

track_id    
title
song_id 
release 
artist_id   
artist_mbid 
artist_name 
duration    
artist_familiarity  
artist_hotttnesss
year

Sample date in file_1.csv

TRZZZZZ12903D05E3A,Infra Stellar,SOZPUEF12AF72A9F2A,Archives Vol. 2,ARBG8621187FB54842,4279aba0-1bde-40a9-8fb2-c63d165dc554,Delerium,495.22893,0.69652442519,0.498471038842,2001

file_2.csv columns: 

track_id    
sales_date  
sales_count

Sample data in file_2.csv

TRZZZZZ12903D05E3A,2014-06-19,79

文件之间的关系是file_1.track_id = file_2.track_id

我想创建第3个文件file_3.csv,其中包含以下列:

file_2.track_id,file_2.sales_date,file_2.sales_count,file_1.title,file_1.song_id,file_1.release,file_1.artist_id,file_1.artist_mbid,file_1.artist_name,file_1.duration,file_1.artist_familiarity,file_1.artist_hotttnesss,file_1.year

我尝试过以下方法:

join -t',' -1 N -1 N file_2.csv file_1.csv >> file_3.csv

awk -F, 'NR==FNR{a[$0]=$0;next} ($1 in a){print a[$1]"," > "file_3.csv"}' file_1.csv file_2.csv

虽然创建了file_3.csv,但它是一个空文件。 关于如何做到这一点的任何想法?

谢谢!

3 个答案:

答案 0 :(得分:2)

以下join命令应该可以解决问题:

join --header -t',' -j 1 file_2.csv file_1.csv

只需确保您的CSV文件在加入字段中排序;有 track_id作为每个文件中的第一个字段,可以轻松实现。

您应该在两个文件中使用测试数据,当您对命令正在执行您想要的操作感到满意时,您可以根据实际数据运行它并将其输出重定向到file_3.csv

答案 1 :(得分:2)

只要文件已排序,加入就可以正常工作。尝试:

join -t, <(sort -t, -k1 file_2.csv) <(sort -t, -k1 file_1.csv) > file3.csv

答案 2 :(得分:1)

使用awk

awk -F, 'NR==FNR{a[$1]=substr($0,length($1)+2);next} ($1 in a){print $0","a[$1]}' file_1.csv file_2.csv > file_3.csv

file_3.csv内容:

TRZZZZZ12903D05E3A,2014-06-19,79,Infra Stellar,SOZPUEF12AF72A9F2A,Archives Vol. 2,ARBG8621187FB54842,4279aba0-1bde-40a9-8fb2-c63d165dc554,Delerium,495.22893,0.69652442519,0.498471038842,2001