Question

我正在使用这种结构的许多文件：

BEGIN
TITLE=id=PRD000012;PRIDE_Exp_Complete_Ac_1645.xml;spectrum=1393
PEPMASS=946.3980102539062
CHARGE=3.0+
USER03=
SEQ=DDDIAAL
TAXONOMY=9606
272.228 126847.000
273.252 33795.000
END
BEGIN IONS
TITLE=id=PRD000012;PRIDE_Exp_Complete_Ac_1645.xml;spectrum=1383
PEPMASS=911.3920288085938
CHARGE=2.0+
USER03=
SEQ=QGKFEAAETLEEAAMR
TAXONOMY=9606
1394.637    71404.000
1411.668    122728.000
END
BEGIN IONS
TITLE=id=PRD000012;PRIDE_Exp_Complete_Ac_1645.xml;spectrum=2965
PEPMASS=946.3900146484375
CHARGE=3.0+
TAXONOMY=9606
1564.717    92354.000
1677.738    33865.000
END

此结构重复数千次，但内部数据不同。正如您所看到的，在某些开始端之间，有时SEQ和USER03不存在。这是因为蛋白质未被识别......这就是我的问题。

我想知道有多少蛋白质被识别出来，有多少蛋白质被识别出来。为此，我决定使用bash，因为它更容易管理文件。

for i in $(ls *.txt ); do
    echo $i

    awk '/^BEGIN/{n++;w=1} n&&w{print > "./cache/out" n ".txt"} /^END/{w=0}' $i

done

我在这里找到了这个（Split a file into multiple files based on a pattern and name the new files by the search pattern in Unix?）

然后使用输出并对它们进行分类：

for i in $(ls cache/*.txt ); do
    echo $i

    if grep -q 'SEQ' $i; then
        mv $i ./archive_identified
    else
        mv $i ./archive_unidentified
    fi
done

在此之后，我想从分类文件中获取一些数据（例如：spectrum，USER03，SEQ，TAXONOMY）。

for i in $( ls archive_identified/*.txt ); do
    echo $i
    grep 'SEQ' $i | cut -d "=" -f2- | tr ',' '\n' >> ./sequences_ide.txt
    grep 'TAXONOMY' $i | cut -d "=" -f2- | tr ',' '\n' >> ./taxonomy_ide.txt
    grep 'USER' $i | cut -d "=" -f2- >> ./modifications_ide.txt
    grep 'TITLE' $i | sed 's/^.*\(spectrum.*\)/\1/g' | cut -d "=" -f2-  >> ./spectrum.txt

done

for i in $( ls archive_unidentified/*.txt ); do
    echo $i
    grep 'TAXONOMY' $i | cut -d "=" -f2- | tr ',' '\n' >> ./taxonomy_unide.txt
    grep 'TITLE' $i | sed 's/^.*\(spectrum.*\)/\1/g' | cut -d "=" -f2-  >> ./spectrum_unide.txt

done

问题是脚本的第一部分需要花费太多时间（我在7天前在LSF中运行脚本并且它仍然保持运行）由于数据量很大（每个文件12-15gb）和生成数千个文件。有没有办法在Python或Perl中做到这一点？

Answer 1

根据您的评论：＆＃34;我想要一个只包含SEQ的文件和另一个没有SEQ＆＃34的文本块的文件;

在Perl中，我这样做：

.shareViaEmail("PASS IT HERE",

这将创建两个文件（创造性地称为＆＃34; SEQ＆＃34;和＆＃34; NO_SEQ＆＃34;）并从源中分割结果。

基于某些模式和块内信息拆分文件

1 个答案: