我编写了一个脚本来计算所有可能的不匹配模式(根据具体情况),如下面的两个(请查看grep命令)并将输出文件写为sh,其中包含十亿行,如下所示:
LC_ALL=C grep -ch "AAAAAAAC[A-Z][A-Z][A-Z][A-Z]CGA[A-Z][A-Z]G\|C[A-Z][A-Z]TCG[A-Z][A-Z][A-Z][A-Z]GTTTTTTT" regions_A regions_B
下一步是执行所有这些数十亿grep线并写入输出。 为了尽可能快地运行它,我只使用LC_ALL查找ASCII代码(我的所有字符都是ASCII)。此外,我将巨大的grep文件分成16个部分,并使用16个线程分别运行它们。
有人知道更快的模式吗?
任何帮助都将不胜感激。
提前谢谢!