我需要列出大量文件(40,000个文件),如下所示:
ERR001268_1_100.fastq ERR001268_2_156.fastq ERR001753_2_78.fastq
ERR001268_1_101.fastq ERR001268_2_157.fastq ERR001753_2_79.fastq
ERR001268_1_102.fastq ERR001268_2_158.fastq ERR001753_2_7.fastq
ERR001268_1_103.fastq ERR001268_2_159.fastq ERR001753_2_80.fastq
我的命令是:ls ERR*_1_*.fastq |sed 's/\.fastq//g'|sort -n > masterlist
但错误是:bash: /bin/ls: Argument list too long
但是我可以解决这个问题吗? 有没有其他方法可以通过perl / python制作这样的列表?
THX
答案 0 :(得分:13)
您应该可以将ls ERR*_1_*.fastq
替换为find . -name "ERR*_1_*.fastq"
这样,您就可以避免将通配符展开到一个巨大的参数列表中。
(find
输出将包含一个前导“./”,例如./ERR001268_1_100.fastq
。如果
这是不可取的,你可以在后面用另一个sed
命令摆脱它
管道。)
答案 1 :(得分:1)
如果文件已经存在于您的目录中,则python的“glob”模块可能具有比bash命令行更高的限制。
从命令行:
python -c "import glob; print glob.glob('ERR_*_1_*.fastq')"
要在python中完成整个过程,你可以尝试这样的事情:
import glob
files = glob.glob("ERR_*_1_*.fastq")
trimmedfiles = [x.replace(".fastq","") for x in files]
trimmedfiles.sort()
for f in trimmedfiles:
print f
此解决方案将按字母顺序对文件进行排序,而不是按数字顺序排序。为此,您可能希望在sort()方法中添加一些key = lambda magic:
trimmedfiles.sort(key=lambda f: int(f.split("_")[2]))
答案 2 :(得分:0)
查找可能对您有帮助 - 而不是使用find . -name 'yourpatternhere' -print0 | xargs -0 youractionhere
答案 3 :(得分:0)
您可以使用find
。
示例:
find /Users/kunlun/Downloads/fu_neg/ -name "*.png" >
/Users/kunlun/Downloads/fu_neg.txt