有没有更快的方法来在多个文件中grep数十亿不匹配模式?

时间:2018-05-10 14:34:49

标签: bash count grep

我编写了一个脚本来计算所有可能的不匹配模式(根据具体情况),如下面的两个(请查看grep命令)并将输出文件写为sh,其中包含十亿行,如下所示:

LC_ALL=C grep -ch "AAAAAAAC[A-Z][A-Z][A-Z][A-Z]CGA[A-Z][A-Z]G\|C[A-Z][A-Z]TCG[A-Z][A-Z][A-Z][A-Z]GTTTTTTT" regions_A regions_B

下一步是执行所有这些数十亿grep线并写入输出。 为了尽可能快地运行它,我只使用LC_ALL查找ASCII代码(我的所有字符都是ASCII)。此外,我将巨大的grep文件分成16个部分,并使用16个线程分别运行它们。

有人知道更快的模式吗?

任何帮助都将不胜感激。

提前谢谢!

0 个答案:

没有答案