我正在使用两个互斥的正则表达式来过滤行,从而使用两个非常大的csv文件(每个大约2400万行)。我不能分享正则表达式或文件(不是你想要下载它们)。
这个想法是匹配正则表达式A的行被传送到文件A中。匹配正则表达式B的行被传送到文件B中。
在此过程完成后,我最终得到的目标文件中有大约500万行。
正则表达式保证互斥,行数正确。
该任务正在Amazon EC2节点上运行。在云端运行grep时有没有人见过这种问题?
答案 0 :(得分:0)
使用awk似乎可以解决问题。
谢谢Barmar!