Python:连续比较/合并文件

时间:2019-06-01 21:07:17

标签: python python-3.x apache etl

在循环中连续比较和合并文件的最有效的pythonic方法是什么?

场景:2个Apache日志文件(access.log和error.log(mod_rewrite))被连续写入。它们都包含我需要关联的数据,这可以通过Apache threadid完成,每个请求都是唯一的,并且可以在两个文件中找到。

示例:

file1.log

data1 data2 THREAD-ID1 data3
data1 data2 THREAD-ID2 data3

file2.log

dataA dataB THREAD-ID1 dataC
dataA dataB THREAD-ID2 dataC

我想要的结果文件-file3.log

TREADID1 data1 data2 data3 dataA dataB dataC
TREADID2 data1 data2 data3 dataA dataB dataC

文件1和文件2都被连续写入,因此某种评估循环(知道最后处理的THREADID)将非常有用。 Python是我的首选语言,但我愿意接受其他解决方案。我考虑过自定义Apache模块,但是在C / Perl中不太满意。

谢谢。

0 个答案:

没有答案