如何对几个文件使用unix / shell paste命令

时间:2015-11-15 22:39:53

标签: python shell header paste

我有五个csv文件,我希望paste一起使用shell函数。这基本上执行几个文本文件中的行的串联。我在追求的内容见例8 in this tutorial

我是通过subprocess.call()从Python执行此操作,但是直接在终端中执行此操作会产生相同的混乱结果。

我的文件都是制表符分隔的(这是粘贴功能的默认分隔符)

当我在2,3,... n文件上使用该函数时,似乎第二行到第n行文件的标题被添加为第二行,只有第一个文件的标题位于apearing中第一行。

这是我的命令:

paste outfile.txt tmp_1.txt tmp_2.txt tmp_3.txt tmp_4 > final.txt

这是输出:

col1    col2    col3               # <-- 1st file has 3 columns
col4    col5                       # <-- 2nd file has 2 columns
col6                               # <-- 3rd file has 1 columns
col7                               # <-- 4th file has 1 columns
col8    col9                       # <-- 5th file has 2 columns

然而,在此之后,行以不同的方式继续(始终如一地到文件的末尾):

col1    col2    col3
col4    col5    col6    col6    col7    col8    col9
col1    col2    col3
col4    col5    col6    col6    col7    col8    col9

[这两个代码块彼此相继]

我找不到我在this documentation中指定的更多选项,明确输入-d'\t'不会改变任何内容。我也尝试过更少或更多的文件,更改文件的oder(如果我的第一个文件中有一些carrriage返回等,但结果总是相同的。

更新#1

以下是@shellter在评论中推荐的命令的输出:cat -vet file1.txt file2.txt ... file5.txt | less

Col1^ICol2^ICol3^M$
Some text was here^I2^I-3^M$
Some text was here^I2^I-1^M$
Some text was here^I2^I-2^M$
Some text was here^I2^I-1^M$

您可以看到标签的^I标记以及行尾/回车/换行的^M$

更新#2

将shell函数dos2unix应用于我的文件:

dos2unix file1.txt file2.txt ... file5.txt

我原来使用的原始粘贴功能按预期工作。从最终文件的输出中,我们可以看到哪些标记只是有用的排序。这是期望的,实现了:

col1    col2    col3    col4    col5    col6    col6    col7    col8    col9
col1    col2    col3    col4    col5    col6    col6    col7    col8    col9
col1    col2    col3    col4    col5    col6    col6    col7    col8    col9

此处用于检查的函数的输出:cat -vet file1.txt ...

Col1^ICol2^ICol3^ICol4^ICol5^ICol6^Col7^ICol8^ICol9$
Col1^ICol2^ICol3^ICol4^ICol5^ICol6^Col7^ICol8^ICol9$
Col1^ICol2^ICol3^ICol4^ICol5^ICol6^Col7^ICol8^ICol9$

找不到^M个标记。

1 个答案:

答案 0 :(得分:1)

将一些评论转移到(社区Wiki)答案中。

Jonathan Leffler评论道:

  

你有任何DOS行结尾令人困惑的东西?也就是说,文件是否有CRLF行结尾?

shellter评论说:

  

使用cat -vet file ... file | less并在每行末尾查找^M

你确认这确实是麻烦的来源。