我是初学者,我的工作开始变得困难。我解释我的问题。 我有两个表File1和File2(参考表)。
File1
num, Name
1, 1_1_busteni
13, 23_Doicesti
40, 2_AR_Moreni
47, 2_AR_Moreni_SUD
55, Petrolul_Romanesc
62, castor
File2
ID_ref, Name_ref
R_001, BUSTENI
R_002, DOICESTI-23
R_003, MORENI
R_004, MORENI-SUD
R_005, ROMANESC
R_006, CASTOR
File3
num, Name,ID_ref,Name_ref
1, 1_1_busteni, R_001, BUSTENI
13, 23_Doicesti, R_002, DOICESTI-23
40, 2_AR_Moreni, R_003, MORENI
47, 2_AR_Moreni_SUD, R_004, MORENI-SUD
55, Petrolul_Romanesc, R_005, ROMANESC
62, castor, R_006, CASTOR
我没有任何相同的列,但我和& 2File1和& 2File2之间有一些相似之处。 File1来自用户,我们希望标准化所有内容,因此我有很多不同的情况。 我不知道如何开始。 我的想法是删除我的第一个文件中的所有“_”和我的第二个文件中的“ - ”并比较它们。 我设法用
做到了awk 'BEGIN {FS=OFS=","} {gsub(/_/,"",$2)}1' file1.txt and awk 'BEGIN {FS=OFS=","} {gsub(/-/,"",$2)}1’ file2.txt
单独但我不知道如何组合和比较我的两个文件。
我也知道我必须考虑小写。
一个好人给我this code以上:它适用于CASTOR
但是如何将它与我的gsub联系起来???
$ awk '
BEGIN { FS=OFS="," }
NR==FNR {
a[tolower($2)]=$0
next
}
{
split($2,b,"[^[:alpha:]]")
print $0 (tolower(b[1]) in a?OFS a[tolower(b[1])]:"")
}' file2 file1
也许它存在更好的方式,我是开放的!
答案 0 :(得分:0)
以下是awk中的一个镜头:
$ awk 'BEGIN { FS=", *"; OFS="," }
NR==FNR {
a[tolower($2)]=$0
next
}
{
for(i in a) # for every city in file2
if(tolower($2)~i) { # compare it to a record from file1
print $0,a[i] # print it if there is a match
next
}
}1' file2 file1
num, Name
1, 1_1_busteni,R_001, BUSTENI
13, 23_Doicesti
40, 2_AR_Moreni,R_003, MORENI
47, 2_AR_Moreni_SUD,R_003, MORENI
55, Petrolul_Romanesc,R_005, ROMANESC
62, castor,R_006, CASTOR
任何比这更好的方法都需要处理名称中的下划线和短划线或使用适当的算法近似模式匹配的规则(参见例如Levenshtein distance)。