存储大量通常以千字节为单位的小型文本文件并执行分析的好方法

时间:2015-02-11 11:21:21

标签: hadoop redis analytics bigdata nosql

我有大量的文本文件(原始文本),其中包含来自各种收集来源的数据,例如syslog,崩溃解码,路由器/交换机/的配置数据......作为单独的文件。我必须存储这些文件并对它们执行一些分析。这些文件很小(通常以kB为最大10MB),但数量很大。如果我必须使用Hadoop,我认为它没有意义,因为HDFS中的块大小默认为64MB。那么我应该使用MongoDB或其他NoSQL商店吗?请建议。 示例文件(这只是一种类型的文件,还有更多其他类型)如下所示: (我要分析的许多事情之一是发生了多少崩溃,其中线程ID为1?) .................................................. .................................................. ................................................. < / p>

坠毁的pid:1956835686(pkg / bin / nvgen)时间:2013年12月9日星期一07:41:18

线程:1个接收信号:11 - SIGSEGV。分段故障。发件人:内核pid:1 信号特定信息:信号代码1 - SEGV_MAPERR。地址未映射。在PC 0x0访问BadAddr 0x0。 核心转储文件名:dumper_harddisk:/dumper/nvgen.sparse.node0_RSP0_CPU0.ppc.Z

注册信息

r0 r1 r2 r3   R0 00000000 e7fff6d0 00b33844 40000000
            r4 r5 r6 r7   R4 e7fff6d8 00000038 e7fff6d8 00000018
            r8 r9 r10 r11   R8 00000000 00000000 00000000 00000000
           r12 r13 r14 r15   R12 24000042 00b33844 e7fffa60 00000004
           r16 r17 r18 r19   R16 e7fffa74 e7fffa88 e7fffb4c 00000000
           r20 r21 r22 r23   R20 00aac26c 00000000 00000000 00000007
           r24 r25 r26 r27   R24 0ff880c4 00000000 e7ffffb1 00000000
           r28 r29 r30 r31   R28 48020778 e7fffb7c e7fffb4c 00000000
           cnt lr msr pc   R32 00000000 00000000 4000d932 00000000
           cnd xer   R36 44000044 00000000

1 个答案:

答案 0 :(得分:0)

您可能希望将文本文件写入一个sequence file。文件基于键/值结构,可以扩展。在严肃的IT架构中,我建议为这种情况安排排队机制(例如JMS)。