awk根据字符串字符比较合并了两个包含2列的文件

时间:2017-07-21 08:58:12

标签: linux bash awk

我是初学者,我的工作开始变得困难。我解释我的问题。 我有两个表File1和File2(参考表)。

File1
num, Name
1, 1_1_busteni
13, 23_Doicesti
40, 2_AR_Moreni
47, 2_AR_Moreni_SUD
55, Petrolul_Romanesc
62, castor

File2
ID_ref, Name_ref
R_001,  BUSTENI
R_002,  DOICESTI-23
R_003,  MORENI
R_004,  MORENI-SUD
R_005,  ROMANESC
R_006,  CASTOR

File3
num, Name,ID_ref,Name_ref
1, 1_1_busteni, R_001, BUSTENI
13, 23_Doicesti, R_002, DOICESTI-23
40, 2_AR_Moreni, R_003, MORENI
47, 2_AR_Moreni_SUD, R_004, MORENI-SUD
55, Petrolul_Romanesc, R_005, ROMANESC
62, castor, R_006, CASTOR

我没有任何相同的列,但我和& 2File1和& 2File2之间有一些相似之处。 File1来自用户,我们希望标准化所有内容,因此我有很多不同的情况。 我不知道如何开始。 我的想法是删除我的第一个文件中的所有“_”和我的第二个文件中的“ - ”并比较它们。 我设法用

做到了
awk 'BEGIN {FS=OFS=","} {gsub(/_/,"",$2)}1' file1.txt and awk 'BEGIN {FS=OFS=","} {gsub(/-/,"",$2)}1’ file2.txt

单独但我不知道如何组合和比较我的两个文件。

我也知道我必须考虑小写。 一个好人给我this code以上:它适用于CASTOR
但是如何将它与我的gsub联系起来???

$ awk '
BEGIN { FS=OFS="," }
NR==FNR {                                                  
    a[tolower($2)]=$0                                      
    next
}
{                                                          
    split($2,b,"[^[:alpha:]]")                             
    print $0 (tolower(b[1]) in a?OFS a[tolower(b[1])]:"")  
}' file2 file1 

也许它存在更好的方式,我是开放的!

1 个答案:

答案 0 :(得分:0)

以下是awk中的一个镜头:

$ awk 'BEGIN { FS=", *"; OFS="," }
NR==FNR {
    a[tolower($2)]=$0
    next
}
{
    for(i in a)               # for every city in file2
        if(tolower($2)~i) {   # compare it to a record from file1
            print $0,a[i]     # print it if there is a match
            next
        }
}1' file2 file1
num, Name
1, 1_1_busteni,R_001,  BUSTENI
13, 23_Doicesti
40, 2_AR_Moreni,R_003,  MORENI
47, 2_AR_Moreni_SUD,R_003,  MORENI
55, Petrolul_Romanesc,R_005,  ROMANESC
62, castor,R_006,  CASTOR

任何比这更好的方法都需要处理名称中的下划线和短划线或使用适当的算法近似模式匹配的规则(参见例如Levenshtein distance)。