分析,预处理或后处理日志文件

时间:2013-09-03 15:09:45

标签: c# ruby postgresql logging preprocessor

我正在尝试对日志文件进行一些数据挖掘。它是一个平面文件,每行有大量事件列表。文件本身也可以达到500MB以上。每一行都是以逗号分隔的可变宽度事件列表,每个事件都包含专门针对该事件的数据。

我经历了几次迭代,实际上还无法确定我希望数据最终如何(标准化或反规范化)?如果我想预处理数据,或者可能在数据库之后对数据进行后处理?或完全不同的东西?

到目前为止我用过的东西:sed + awk,C#,g(awk),Ruby,Postgres 我考虑过的事情:可能是一个没有SQL的数据库?可能还有其他想法吗?

最终,我使用了这些工具中的每一个来单独“传递”文件并输出另一个文件,每个行都有一个硬列数(30)。之后我一直在使用postgres,我创建了一个包含30列的大型postgres表,我可以使用简单的COPY postgres命令(基本上是批量复制插入)快速将该文件导入到表中。

烦恼:数据完全取消规范化。我基本上在一个表中得到了大量的数据转储,我可以肯定地查询并获取我需要的数据,但是那个庞大的30列表正在测试我的敏感性。

问题:您是否会尝试规范化数据?如果是这样,你对此有何看法?你会对30列表进行后处理吗?在将数据插入数据库之前进行预处理?还有其他想法吗?

1 个答案:

答案 0 :(得分:2)

您是否尝试过使用logstash或splunk?