在循环中连续比较和合并文件的最有效的pythonic方法是什么?
场景:2个Apache日志文件(access.log和error.log(mod_rewrite))被连续写入。它们都包含我需要关联的数据,这可以通过Apache threadid完成,每个请求都是唯一的,并且可以在两个文件中找到。
示例:
file1.log
data1 data2 THREAD-ID1 data3
data1 data2 THREAD-ID2 data3
file2.log
dataA dataB THREAD-ID1 dataC
dataA dataB THREAD-ID2 dataC
我想要的结果文件-file3.log
TREADID1 data1 data2 data3 dataA dataB dataC
TREADID2 data1 data2 data3 dataA dataB dataC
文件1和文件2都被连续写入,因此某种评估循环(知道最后处理的THREADID)将非常有用。 Python是我的首选语言,但我愿意接受其他解决方案。我考虑过自定义Apache模块,但是在C / Perl中不太满意。
谢谢。