我有一个包含~50k文件的目录。每个文件有~70万行。我写了一个awk程序来读取每一行,只有在出现错误时才打印。一切都运行得很好,但所花的时间很长 - 大约4天!!!!有没有办法减少这个时间?我们可以使用多个核心(进程)吗?有没有人试过呢?
答案 0 :(得分:2)
awk
和gawk
不会自行解决此问题。没有神奇的“让它并行”开关。你需要在某种程度上重写:
md5sum
并将其存储在数据库中,则可以计算新文件的md5sum,如果已经这样做,则跳过处理。awk
进行缩放会在某些时候变得荒谬。使用一些map-reduce框架可能是一个好主意。