Question

我有一个CSV文件，我想解析并使用jq获取嵌套JSON。我最近开始使用JQ，我真的很喜欢这个工具。我理解基本功能，但解析csv文件似乎有点困难，特别是打印嵌套对象。

样本输入

基因，外显子，总数，外显子碱基，总碱基，外显子碱基的比例 PIK3CA，PIK3CA_Exon10; CHR1; 1000; 1500，PIK3CA_Exon13; CHR1; 1000; 1500，PIK3CA_Exon14; CHR1; 1000; 1500,1927879,12993042,0.15 NRAS，NRAS_Exon4; CHR1; 1000; 1500，NRAS_Amp_369; CHR1; 1000; 1500，NRAS_Amp_371; CHR1; 1000; 1500，NRAS_Amp_374; CHR1; 1000; 1500，NRAS_Amp_379; CHR1; 1000; 1500,884111,8062107,0.11

标题和输入数据说明

第一列总是有一个值。第二列可以具有多个外显子（1个或更多个）。您可以看到它在第2行有3个值，在第3行有5个值。外显子碱基将是最后一列，总碱基将是最后一个，外显子碱基的分数将是最后一列。

注意

我已添加标题以供说明，可以删除或修改以进行处理

预期输出

{  
   "Exome regions":[  
      {  
         "metric":"PIK3CA",
         "value":[  
            {  
               "metric":"Exons",
               "value":[  
                  "PIK3CA_Exon10",
                  {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  },
                  "PIK3CA_Exon13",
                 {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  },
                  "PIK3CA_Exon14",
                  {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  }
               ],
               "type":"set"
            },
            {  
               "metric":"Fraction of bases",
               "value":0.15,
               "type":"simple"
            },
            {  
               "metric":"Total_bases",
               "value":1927879,
               "type":"simple"
            }
         ],
         "type":"set"
      },

      {  
         "metric":"NRAS",
         "value":[  
            {  
               "metric":"Exons",
               "value":[  
                  "NRAS_Exon4",
                  {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  },
                  "NRAS_Amp_369",
                 {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  },
                  "NRAS_Amp_371",
                 {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  },
                  "NRAS_Amp_374",
                 {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  },
                  "NRAS_Amp_379",
                 {
                   "chromosome":"chr1",
                   "start":1000,
                   "end":1500
                  }
               ],
               "type":"set"
            },
            {  
               "metric":"Fraction of bases",
               "value":0.11,
               "type":"simple"
            },
            {  
               "metric":"Total_bases",
               "value":884111,
               "type":"simple"
            }
         ],
         "type":"set"
      }
   ]
}

提前感谢您的帮助!!

PS： - 我需要添加更多信息，我必须编辑外显子字段并为每个外显子添加“染色体”，“开始”和“结束”。在这里，我给出了相同的开始和结束，但在实际情况中，每个外显子都有所不同。你能帮我解决这个问题吗？此外，这些外显子的输入也可以被任何其他字符分开。现在我把它分开“;”

Answer 1

这是一个解决方案，（a）假设没有标题行，根据有关标题的评论（但见下文）; （b）没有＆＃34; slurp＆＃34;文件（即不会将整个文件读入内存）; （c）假定jq版本为inputs。（如果您的jq没有inputs，那么相应地修改以下内容将非常容易。）

def parse_row:
  split(",") 
  | length as $length
  | .[1: $length - 3] as $exons
  | { metric : .[0],
      value: [ { metric: "Exons",
                 value: $exons,
         type: "set" },
        { metric: "Fraction of bases",
                  value: (.[$length - 1] | tonumber),
          type: "simple"
        },
                { metric: "Total_bases",
                  value: (.[$length - 3] | tonumber),
                  type: "simple"
        }
        ],
        type: "set" 
    } ;

[inputs | parse_row]
| { "Exome regions": .}

jq的适当调用将遵循以下几行：

jq -n -R -f program.jq input.txt

这会生成所需的JSON。

（-R代表＆＃34;原始输入＆＃34;。）

如果输入文件确实有一个标题行，只要您放弃＆＃34; -n＆＃34;上述解决方案仍然可用。命令行选项。

请注意，虽然输入文件具有逗号分隔值，但它实际上不是CSV文件。

Answer 2

这是一个使用函数解析和汇编输出的解决方案：

def parse:
  [
      inputs                     # read lines
    | split(",")                 # split into columns
    | select(length>0)           # eliminate blanks
    | .[:1] + [.[1:-3]] + .[-3:] # normalize columns
  ]
;
def simple(n;v): {metric:n, value:v|tonumber, type:"simple"};
def set(n;v):    {metric:n, value:v,          type:"set"};
def region:
  set(.[0]; [
      set("Exons"; .[1]),
      simple("Fraction of bases"; .[2]),
      simple("Total_bases"; .[3])
    ]
  )
;
{
   "Exome regions": parse | map(region)
}

示例运行（假设过滤器位于filter.jq，数据位于data.json）

$ jq -M -Rnr -f filter.jq data.json
{
  "Exome regions": [
    {
      "metric": "PIK3CA",
      "value": [
        {
          "metric": "Exons",
          "value": [
            "PIK3CA_Exon10",
            "PIK3CA_Exon13",
            "PIK3CA_Exon14"
          ],
          "type": "set"
        },
        {
          "metric": "Fraction of bases",
          "value": 1927879,
          "type": "simple"
        },
        {
          "metric": "Total_bases",
          "value": 12993042,
          "type": "simple"
        }
      ],
      "type": "set"
    },
    {
      "metric": "NRAS",
      "value": [
        {
          "metric": "Exons",
          "value": [
            "NRAS_Exon4",
            "NRAS_Amp_369",
            "NRAS_Amp_371",
            "NRAS_Amp_374",
            "NRAS_Amp_379"
          ],
          "type": "set"
        },
        {
          "metric": "Fraction of bases",
          "value": 884111,
          "type": "simple"
        },
        {
          "metric": "Total_bases",
          "value": 8062107,
          "type": "simple"
        }
      ],
      "type": "set"
    }
  ]
}

Try it online!

以下是修订问题的解决方案：

def parse:
  [
      inputs                     # read lines
    | split(",")                 # split into columns
    | select(length>0)           # eliminate blanks
    | .[:1] + [.[1:-3]] + .[-3:] # normalize columns
  ]
;
def simple(n;v): {metric:n, value:v|tonumber, type:"simple"};
def set(n;v):    {metric:n, value:v,          type:"set"};
def exons(v):    [ v[] | split(";") | .[0], {"chromosome":.[1], "start":.[2], "end":.[3]} ];
def region:
  set(.[0]; [
      set("Exons"; exons(.[1])),
      simple("Fraction of bases"; .[2]),
      simple("Total_bases"; .[3])
    ]
  )
;

{ "Exome regions": parse | map(region) }

Try it online!

将逗号分隔文件转换为jq中的嵌套对象json

样本输入

标题和输入数据说明

注意

预期输出

2 个答案: