Question

我有一个这样的TAB文件：

1   56  .   T   C   1963    .   HaplotypeScore=3.6230;MLEAF=1.00;MQ=60.00;MQ0=0;QD=33.84;MLEAC=1;SOR=1.077
1   226 .   A   G   1600    .   HaplotypeScore=3.0421;MLEAC=1;MLEAF=1.00;MQ=59.02;MQ0=0;QD=32.00;SOR=0.954
1   670 .   A   G   2878    .   HaplotypeScore=9.0166;QD=34.24;MLEAC=1;MLEAF=1.00;MQ=60.00;MQ0=0;SOR=0.864
1   817 .   C   T   1425    .   HaplotypeScore=0.9958;MLEAC=1;MLEAF=1.00;MQ=60.00;MQ0=0;QD=26.89;SOR=0.850

我的目标是创建一个for循环，从该列中单独提取QD=值并生成一个.txt文件，如下所示：

QD=33
QD=32
QD=34
QD=26

到目前为止，我已经提出了这样的建议：

awk -F'[：]''{print $ 8}'输入文件

，或者甚至使用sed命令。但是此刻我完全迷路了。

Answer 1

这里：

cut -d';' -f6 file

如果这是您所需要的，则不需要sed或awk

仅进一步获取整数：

cut -d';' -f6 file|cut -d. -f1

编辑

更多评论表明QD=所在的列的顺序可能会发生变化，因此我们可以使用正则表达式来查找它：

grep -Po 'QD=\d+' file

示例：https://regex101.com/r/fCcDKe/1

Answer 2

您的另一个选项是awk，它是文本处理的瑞士军刀。这将比在大文件上生成多个子shell并将管道信息传递给不同的实用程序快几个数量级。如果您少于1000条记录（行），则不会有太大差异。如果您有数百万行，则使用awk只需几分之一秒，而使用多个实用程序则只需几分钟。

awk处理文件中的每个记录（行），并按照写入顺序将写入规则应用于每个记录。有两个特殊规则，BEGIN（在读取行开始之前运行，可用于分配变量，打印标题行等）和END规则（在处理所有行之后运行）您可以处理数组中收集的任何数据或打印页脚行等。）

这里您需要一个规则，根据';'分隔符将最后一个字段分割成一个数组，例如

awk -F'\t' '{split($NF,arr,";"); sub(/[.].*$/,"",arr[6]); print arr[6]}' file

-F'\t'上方告诉awk使用制表符作为字段分隔符。（注意：您可以省略-F'\t'，因为awk会以空格分隔字段，然后，split将最后一个字段（NF）拆分为数组{{1 }}，然后arr应用正则表达式sub来截取从/[.].*$/到字段末尾的所有内容，从而使问题中显示的整数消失，例如

使用/输出示例

将示例数据保存在名为'.'的文件中，您将具有：

file

（如果该字段发生了很多变化，您也可以遍历$ awk -F'\t' '{split($NF,arr,";"); sub(/[.].*$/,"",arr[6]); print arr[6]}' file QD=33 QD=32 QD=34 QD=26的元素以找到以arr开头的元素）

未知量子点的位置

如果"QD"在最后一个字段中的位置未知，则可以简单地遍历"QD"的元素，例如arr并找到以for (i in arr)开头的元素，然后操作"QD"而不是arr[i]，例如

arr[6]

您可以将名称从awk '{ split($NF,arr,";") for (i in arr) if (arr[i] ~ /^QD/) { sub(/[.].*$/,"",arr[i]) print arr[i] next } }' file更改为您的文件名，然后选择复制并将鼠标中键将表达式粘贴到xterm中，并在其中包含您文件的当前工作目录，例如

使用/输出示例

file

或者，如果您更喜欢将其作为单线，则可以执行以下操作：

$ awk '{
>     split($NF,arr,";")
>     for (i in arr)
>         if (arr[i] ~ /^QD/) {
>             sub(/[.].*$/,"",arr[i])
>             print arr[i]
>             next
>         }
> }' file
QD=33
QD=32
QD=34
QD=26

GNU Awk Users Guide - String-Manipulation Functions中详细说明了所使用的所有功能。它是学习$ awk '{split($NF,arr,";"); for (i in arr) if (arr[i] ~ /^QD/) { sub(/[.].*$/,"",arr[i]); print arr[i]; next }}' file QD=33 QD=32 QD=34 QD=26的绝佳参考。只需单击目录，然后将链接标记为完整指南。仔细研究一下，如果您还有其他问题，请告诉我。

Answer 3

我认为最简单的方法应该是使用let jsonData = { "mood":[ { "id":"1", "text":"Annoyed", "cols":1, "rows":2, "color":"lightgreen", "route":"/angry", "musics":[ { "id":"0", "name":"English- Heaven's Peace", "image":"images/music.png", "link":"https://www.youtube.com/playlist?list=PLPfXrbtn3EgleopO8DiEdsNKgqYZZSEKF", "descpription":"Tunes that soothe your pained soul", "reviews":[ { "name":"abc", "rating":4, "review":"energetic", "date":"" } ] }, { "id":"1", "name":"English- Hell's Fire", "image":"images/music.png", "link":"https://www.youtube.com/playlist?list=PLPfXrbtn3EgmZitRQf1X1iYwWW_nUF44L", "descpription":"Beats that match the ones of your heart", "reviews":[ { "name":"abc", "rating":3.5, "review":"energetic", "date":"" } ] }, { "id":"2", "name":"Hindi", "image":"images/music.png", "link":"", "descpription":"", "reviews":[ { "name":"abc", "rating":4, "review":"energetic", "date":"" } ] }, { "id":"3", "name":"Punjabi", "image":"images/music.png", "link":"https://www.youtube.com/playlist?list=PLPfXrbtn3Egnntch2thUO55YqPQgo4Qh7", "descpription":"", "reviews":[ { "name":"abc", "rating":4, "review":"energetic", "date":"" } ] }, { "id":"4", "name":"Mix and Match", "image":"images/music.png", "link":"https://www.youtube.com/playlist?list=PLPfXrbtn3EglN5LVTETqH3ipRLfXmY6MB", "descpription":"", "reviews":[ { "name":"abc", "rating":5, "review":"energetic", "date":"" } ] } ] } ] } ; // music - i can save here let r = jsonData.mood[0].musics.filter(data => data.id == "2"); // music - or i can console.log it also // i am comparing with 2 here - compare with your id number // according to your need console.log(jsonData.mood[0].musics.filter(data => data.id == "2")); // in the same way you can search mood also console.log(jsonData.mood.filter(data=> data.id == "1"));的{{1}}函数，因为match的位置未知。在链接https://ideone.com/EzswQj#stdin

中进行了编写和测试

awk

说明： 使用此处的QD的{{1}}函数，我们可以在其中提供正则表达式以获取输出所需的内容。我给了awk 'match($NF,/QD=[0-9]+/){print substr($NF,RSTART,RLENGTH)}' Input_file，它将匹配字符串QD then =，然后在最后一个字段中连续任意位数。在awk中，如果匹配一个正则表达式，它将设置两个名为match和QD=[0-9]+的默认变量，因此我在此处打印从RSTART到RLENGTH打印的子字符串。

注意： 根据显示的示例，考虑到QD值仅在最后一列出现一次，如果每行有多个值，那么我们需要写一会儿循环进入上面的代码。

Answer 4

或者，一个简单的sed命令可以完成任务：

sed 's/.*;\(QD=[0-9]*\).*/\1/' file

有没有一种方法可以对列的一部分进行分组？

4 个答案:

编辑