我希望使用jq
将JSON转换为分隔符分隔和展平的结构。
已经有过尝试。例如,Flatten nested JSON using jq。
但是,如果JSON包含数组,则该页面上的解决方案将失败。例如,如果JSON是:
{"a":{"b":[1]},"x":[{"y":2},{"z":3}]}
上述解决方案无法将上述内容转换为:
{"a.b.0":1,"x.0.y":2,"x.1.z":3}
此外,我正在寻找一种也允许任意分隔符的解决方案。例如,假设空格字符是分隔符。在这种情况下,结果将是:
{"a b 0":1,"x 0 y":2,"x 1 z":3}
我希望通过CentOS 7中的Bash(4.2+)函数访问此功能,如下所示:
flatten_json()
{
local JSONData="$1"
# jq command to flatten $JSONData, putting the result to stdout
jq ... <<<"$JSONData"
}
该解决方案应适用于所有JSON数据类型,包括 null 和 boolean 。例如,请考虑以下输入:
{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}
它应该产生:
{"a b 0":"p q r","w 0 x":null,"w 1 y":false,"w 2 z":3}
答案 0 :(得分:9)
如果您将数据流式传输,您将获得所有叶值的路径和值的配对。如果不是一对,则标记该路径上对象/数组定义结束的路径。如您所见,使用leaf_paths
只会为您提供真实叶子值的路径,因此您将错过null
甚至false
值。作为一个流,你不会遇到这个问题。
有很多方法可以将它组合到一个对象上,我倾向于在这些情况下使用reduce
和赋值。
$ cat input.json
{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}
$ jq --arg delim '.' 'reduce (tostream|select(length==2)) as $i ({};
.[[$i[0][]|tostring]|join($delim)] = $i[1]
)' input.json
{
"a.b.0": "p q r",
"w.0.x": null,
"w.1.y": false,
"w.2.z": 3
}
这里有一些相同的解决方案,可以解释发生了什么。
$ jq --arg delim '.' 'reduce (tostream|select(length==2)) as $i ({};
[$i[0][]|tostring] as $path_as_strings
| ($path_as_strings|join($delim)) as $key
| $i[1] as $value
| .[$key] = $value
)' input.json
使用tostream
将输入转换为流,我们将收到多个对/路径值作为我们过滤器的输入。有了这个,我们可以将这些多个值传递给reduce
,它被设计为接受多个值并对它们执行某些操作。但在我们开始之前,我们希望仅通过对(select(length==2)
)过滤这些对/路径。
然后在reduce调用中,我们从一个干净的对象开始,并使用从路径和相应的值派生的键来分配新值。请记住,reduce
调用中生成的每个值都用于迭代中的下一个值。将值绑定到变量不会更改当前上下文,并且赋值会有效地“修改”当前值(初始对象)并将其传递。
$path_as_strings
只是一个字符串数组的路径,而数字只是字符串。当我要映射的数组不是当前数组时,[$i[0][]|tostring]
是我用来替代使用map
的简写。这是更紧凑的,因为映射是作为单个表达式完成的。而不是必须这样做才能得到相同的结果:($i[0]|map(tostring))
。一般来说,外括号可能不是必需的,但它仍然是两个单独的过滤表达式而不是一个(和更多文本)。
然后从那里我们使用提供的分隔符将该字符串数组转换为所需的键。然后将适当的值分配给当前对象。
答案 1 :(得分:1)
以下测试使用jq 1.4,jq 1.5和当前的“master”版本。关于包含null和false路径的要求是“allpaths”和“all_leaf_paths”的原因。
# all paths, including paths to null
def allpaths:
def conditional_recurse(f): def r: ., (select(.!=null) | f | r); r;
path(conditional_recurse(.[]?)) | select(length > 0);
def all_leaf_paths:
def isscalar: type | (. != "object" and . != "array");
allpaths as $p
| select(getpath($p)|isscalar)
| $p ;
. as $in
| reduce all_leaf_paths as $path ({};
. + { ($path | map(tostring) | join($delim)): $in | getpath($path) })
使用flatten.jq中的这个jq程序:
$ cat input.json
{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}
$ jq --arg delim . -f flatten.jq input.json
{
"a.b.0": "p q r",
"w.0.x": null,
"w.1.y": false,
"w.2.z": 3
}
这是一个辅助函数,它说明了另一种路径展平算法。它将包含分隔符的键转换为带引号的字符串,数组元素用方括号表示(参见下面的示例):
def flattenPath(delim):
reduce .[] as $s ("";
if $s|type == "number"
then ((if . == "" then "." else . end) + "[\($s)]")
else . + ($s | tostring | if index(delim) then "\"\(.)\"" else . end)
end );
示例:使用flattenPath
代替map(tostring) | join($delim)
,对象:
{"a.b": [1]}
会变成:
{
"\"a.b\"[0]": 1
}
答案 2 :(得分:0)
为了给已经给出的解决方案添加一个新选项,jqg 是我编写的一个脚本,用于展平任何 JSON 文件,然后使用正则表达式搜索它。出于您的目的,您的正则表达式将只是“.
”,它可以匹配所有内容。
$ echo '{"a":{"b":[1]},"x":[{"y":2},{"z":3}]}' | jqg .
{
"a.b.0": 1,
"x.0.y": 2,
"x.1.z": 3
}
并且可以产生紧凑的输出:
$ echo '{"a":{"b":[1]},"x":[{"y":2},{"z":3}]}' | jqg -q -c .
{"a.b.0":1,"x.0.y":2,"x.1.z":3}
它还处理@peak使用的更复杂的例子:
$ echo '{"a":{"b":["p q r"]},"w":[{"x":null},{"y":false},{"z":3}]}' | jqg .
{
"a.b.0": "p q r",
"w.0.x": null,
"w.1.y": false,
"w.2.z": 3
}
以及空数组和对象(以及一些其他边缘情况值):
$ jqg . test/odd-values.json
{
"one.start-string": "foo",
"one.null-value": null,
"one.integer-number": 101,
"two.two-a.non-integer-number": 101.75,
"two.two-a.number-zero": 0,
"two.true-boolean": true,
"two.two-b.false-boolean": false,
"three.empty-string": "",
"three.empty-object": {},
"three.empty-array": [],
"end-string": "bar"
}
(可以使用 -E
选项关闭报告空数组和对象)。
jqg
已使用 jq
1.6
注意:我是 jqg
脚本的作者。