我知道cut命令可以从文件中删除一个列,但是我可以使用什么来将文件拆分成多个文件,以便每个文件在该列中被命名为第一行并且会有相同的生成的文件数,因为原始文件中有列
示例(编辑)
列由TAB分隔,长度可以不同。我想第一个文件实际上有行的名称。
Probe File1.txt File2.txt File3.txt
"1007_s_at" 7.84390328616472 7.60792223630275 7.77487266222512
...
另外一点是这个原始文件非常庞大,所以我想要一些可以在一次运行中拆分的解决方案。那不是反复叫做切割
答案 0 :(得分:6)
可以使用一行awk:
$ cat test.tsv
field1 field2 field3 field4
asdf asdf asdf asdf
lkjlkj lkjlkj lkjlkj lkjlkj
feh feh feh bmeh
$ awk -F'\t' 'NR==1 { for(i=1;i<=NF;i++) { names[i] = $i }; next } { for(i=1;i<=NF;i++) print $i >> names[i] }' test.tsv
$ ls
field1 field2 field3 field4 test.tsv
$ cat field4
asdf
lkjlkj
bmeh
编辑包括Tab分隔符由Glenn Jackman提供
<强>加成强>
从字段中删除双引号:
awk -F'\t' 'NR==1 { for(i=1;i<=NF;i++) { names[i] = $i }; next } { for(i=1;i<=NF;i++) {gsub(/"/,"",$i); print $i >> names[i] }}' example.tsv
额外添加
仅从字段的开头或结尾处删除字段中的双引号:
awk -F'\t' 'NR==1 { for(i=1;i<=NF;i++) { names[i] = $i }; next } { for(i=1;i<=NF;i++) {gsub(/^"|"$/,"",$i); print $i >> names[i] }}' example.tsv