Question

GNU awk支持multidimensional arrays：

q[1][1] = "dog"
q[1][2] = 999
q[2][1] = "mouse"
q[2][2] = 777
q[3][1] = "bird"
q[3][2] = 888

我想对q的“第二列”进行排序，以便我留下：

q[1][1] = "mouse"
q[1][2] = 777
q[2][1] = "bird"
q[2][2] = 888
q[3][1] = "dog"
q[3][2] = 999

您可以看到“第一列”值移动以与第二列保持一致。我知道了 GNU Awk提供asort function，但它似乎不支持多维数组。如果它有帮助，这是一个 working Ruby example：

q = [["dog", 999], ["mouse", 777], ["bird", 888]]
q.sort_by{|z|z[1]}
=> [["mouse", 777], ["bird", 888], ["dog", 999]]

我最终使用常规数组，然后用换行符分隔重复项：

q[777] = "mouse"
q[999] = "dog" RS "fish"
q[888] = "bird"
for (z in q) {
  print q[z]
}

Answer 1

FWIW，这是一个解决方法＆＃34; sort_by（）＆＃34;功能：

$ cat tst.awk
BEGIN {
    a[1][1] = "dog"
    a[1][2] = 999
    a[2][1] = "mouse"
    a[2][2] = 777
    a[3][1] = "bird"
    a[3][2] = 888

    print "\n############################\nBefore:"
    for (i=1; i in a; i++)
        for (j=1; j in a[i]; j++)
            printf "a[%d][%d] = %s\n",i,j,a[i][j]
    print "############################"

    sort_by(a,2)

    print "\n############################\nAfter:"
    for (i=1; i in a; i++)
        for (j=1; j in a[i]; j++)
            printf "a[%d][%d] = %s\n",i,j,a[i][j]
    print "############################"

}

function sort_by(arr,key,       keys,vals,i,j)
{
    for (i=1; i in arr; i++) {
        keys[i] = arr[i][key]
        for (j=1; j in arr[i]; j++)
            vals[keys[i]] = vals[keys[i]] (j==1?"":SUBSEP) arr[i][j]
    }

    asort(keys)

    for (i=1; i in keys; i++)
       split(vals[keys[i]],arr[i],SUBSEP)

    return (i - 1)
}

$ gawk -f tst.awk

############################
Before:
a[1][1] = dog
a[1][2] = 999
a[2][1] = mouse
a[2][2] = 777
a[3][1] = bird
a[3][2] = 888
############################

############################
After:
a[1][1] = mouse
a[1][2] = 777
a[2][1] = bird
a[2][2] = 888
a[3][1] = dog
a[3][2] = 999
############################

首先将其转换为：

    a[1][1] = "dog"
    a[1][2] = 999
    a[2][1] = "mouse"
    a[2][2] = 777
    a[3][1] = "bird"
    a[3][2] = 888

到此：

    keys[1]   = 999
    vals[999] = dog SUBSEP 999

    keys[2]   = 777
    vals[777] = mouse SUBSEP 777

    keys[3]   = 888
    vals[888] = bird SUBSEP 888

然后asort（）按键[]得到：

    keys[1] = 777
    keys[2] = 888
    keys[3] = 999

然后使用它的元素循环遍历keys数组，作为vals数组的索引，用于重新填充原始数组。

如果有人想知道为什么我没有使用我们想要排序的值作为索引，然后做一个asorti（），因为这会产生稍微简短的代码，这里＆＃39;为什么：

$ cat tst.awk
BEGIN {
   a[1] = 888
   a[2] = 9
   a[3] = 777

   b[888]
   b[9]
   b[777]

   print "\n\"a[]\" sorted by content:"
   asort(a,A)
   for (i=1; i in A; i++)
      print "\t" A[i]

   print "\n\"b[]\" sorted by index:"
   asorti(b,B)
   for (i=1; i in B; i++)
      print "\t" B[i]

}
$ awk -f tst.awk

"a[]" sorted by content:
        9
        777
        888

"b[]" sorted by index:
        777
        888
        9

请注意，asorti（）会对待＆＃34; 9＆＃34;比＆＃34; 888＆＃34;更高的价值。这是因为asorti（）对数组索引进行排序，所有数组索引都是字符串（即使它们看起来像数字），字母顺序排列字符串的第一个字符＆＃34; 9＆＃34;高于字符串＆＃34; 888＆＃34;的第一个字符。另一方面，asort（）对数组的内容进行排序，数组内容可以是字符串或数字，因此适用正常的awk比较规则 - 任何看起来像数字的东西都被视为数字而数字9小于数字888，在这种情况下，恕我直言是期望的结果。

Answer 2

支持真正的多维数组

不，它没有。它支持数组数组，并且它支持由一个字符串索引的哈希，该字符串由两个被刷在一起的索引组成。你的语法是前者（数组数组）。

那就是说，我不认为你可以用内置函数来做，因为它要么需要使用比较器回调，要么就是返回排序排列的能力，gawk都没有提供， AFAIK。

但您可以参考this page，其中介绍了如何为自己实施qsort，您可以将比较从A[i] < A[left]更改为A[i][2] < A[left][2]。

awk排序多维数组

2 个答案: