从文件中提取包含大量字符串之一的行

时间:2013-02-27 18:48:18

标签: linux command-line

假设我有10,000,000行的文件DATA。我有另一个文件IDS,包含100,000个字符串。我想从DATA中提取包含IDS中一个字符串的所有行。另一个条件是文件之间存在1:1的关系,因此每个ID都有一行DATA,每个DATA都有一个ID。

使用标准linux命令行实用程序执行此操作的最有效,最简单的方法是什么?

到目前为止我的想法:

  1. 构建一个巨大的正则表达式并使用grep(简单,可以超出grep中的某些限制)
  2. 逐行浏览IDS并分别为每个字符串grep DATA,合并结果。 (容易,可能非常低效)
  3. 在python中构建IDS的哈希映射,循环访问DATA,提取ID并检查哈希映射(更难一点)

2 个答案:

答案 0 :(得分:3)

grep -F -f IDS DATA

不要错过-F:它会阻止将IDS解释为正则表达式,并启用更有效的Aho-Korasick算法。

答案 1 :(得分:2)

如果IDS包含您需要在DATA中找到的确切字符串,每行一个字符串,请尝试使用

grep --file=IDS DATA > results