Question

我有以下类型的基因组学文件：

$ cat test-file_long.txt 
2 41647 A G
2 45895 A G
2 45953 T C
2 224919 A G
2 230055 C G
2 233239 A G
2 234130 T G
2 23454 T C

当我使用以下简短的AWK脚本时，它不会返回所有大于if语句中使用的元素的元素：

{
    a[$2]
}
END{
    for (i in a){
    if(i > 45895) 
    print i
    }
}

脚本返回：

$ awk -f practice.awk test-file_long.txt 
45953

但是，当我使用int（）更改if语句时，它会返回实际上大于我想要的行：

{
    a[$2]
}
END{
    for (i in a){
    if(int(i) > 45895) 
    print i
    }
}

结果：

$ awk -f practice.awk test-file_long.txt 
233239
230055
234130
224919
45953

它似乎只是与第一个数字进行比较，如果它们是相同的，它会查看下一个数字，但它不会处理整个数字。有人可以向我解释关联数组的内部机制是什么，它不会使数字＆gt; /＆lt;比较，除非我指定我想要数组元素的int（）？如果我的数组元素是浮点数并且int（）不是一个选项怎么办？

Answer 1

awk中的数组键是字符串，因此在这里进行字母比较。在您的第一个示例中，459按字母顺序大于458，因此它通过了测试。

如果您的唯一目标是打印第二列> 45895 数字的行，则可以这样做：

awk '$2 > 45895' test-file_long.txt

变量根据评估它们的上下文更改类型。因此，通过将变量放在显式数字上下文中，它将被视为这样。 @glenn对i+0的建议完美地证明了这一点。

或者，unary plus operator +i可用于将表达式转换为数字。所以你的长篇例子可以改为：

awk '{a[$2]} END { for (i in a) { if (+i > 45895) print i } }' test-file_long.txt