grep导致原始文件具有更多行

时间:2013-05-30 00:11:10

标签: amazon-ec2 grep cloud

我正在使用两个互斥的正则表达式来过滤行,从而使用两个非常大的csv文件(每个大约2400万行)。我不能分享正则表达式或文件(不是你想要下载它们)。

这个想法是匹配正则表达式A的行被传送到文件A中。匹配正则表达式B的行被传送到文件B中。

在此过程完成后,我最终得到的目标文件中有大约500万行。

正则表达式保证互斥,行数正确。

该任务正在Amazon EC2节点上运行。在云端运行grep时有没有人见过这种问题?

1 个答案:

答案 0 :(得分:0)

使用awk似乎可以解决问题。

谢谢Barmar!