我有大量的文本文件(原始文本),其中包含来自各种收集来源的数据,例如syslog,崩溃解码,路由器/交换机/的配置数据......作为单独的文件。我必须存储这些文件并对它们执行一些分析。这些文件很小(通常以kB为最大10MB),但数量很大。如果我必须使用Hadoop,我认为它没有意义,因为HDFS中的块大小默认为64MB。那么我应该使用MongoDB或其他NoSQL商店吗?请建议。 示例文件(这只是一种类型的文件,还有更多其他类型)如下所示: (我要分析的许多事情之一是发生了多少崩溃,其中线程ID为1?) .................................................. .................................................. ................................................. < / p>
坠毁的pid:1956835686(pkg / bin / nvgen)时间:2013年12月9日星期一07:41:18
线程:1个接收信号:11 - SIGSEGV。分段故障。发件人:内核pid:1 信号特定信息:信号代码1 - SEGV_MAPERR。地址未映射。在PC 0x0访问BadAddr 0x0。 核心转储文件名:dumper_harddisk:/dumper/nvgen.sparse.node0_RSP0_CPU0.ppc.Z
注册信息
r0 r1 r2 r3
R0 00000000 e7fff6d0 00b33844 40000000
r4 r5 r6 r7
R4 e7fff6d8 00000038 e7fff6d8 00000018
r8 r9 r10 r11
R8 00000000 00000000 00000000 00000000
r12 r13 r14 r15
R12 24000042 00b33844 e7fffa60 00000004
r16 r17 r18 r19
R16 e7fffa74 e7fffa88 e7fffb4c 00000000
r20 r21 r22 r23
R20 00aac26c 00000000 00000000 00000007
r24 r25 r26 r27
R24 0ff880c4 00000000 e7ffffb1 00000000
r28 r29 r30 r31
R28 48020778 e7fffb7c e7fffb4c 00000000
cnt lr msr pc
R32 00000000 00000000 4000d932 00000000
cnd xer
R36 44000044 00000000