我需要处理日志文件数据。这是相对微不足道的。我有4个服务器,每个服务器上运行2个Web应用程序,总共8个日志文件。这些定期轮换。我正在将以下格式的数据写入这些日志文件
来源时间戳:9340398; 39048039; 930483; 3940830
数字是数据存储中的标识符。我想设置一个进程来读取这些日志,并且对于每个id,它将根据其id记录的次数更新计数。它可以是实时的也可以是批量的。我对数据存储区的界面语言是Java。该过程在生产中运行,因此需要具有稳健性,但也需要具有相对简单的架构,以便可维护。我们还经营zookeeper。
我最初的想法是每当日志文件在每台服务器上运行Apache spark时轮流执行此操作。然而,我接着看了Apache Flume,Kafka和Storm这样的日志聚合器,但这看起来有些过分。
鉴于众多选择,任何人都有任何好的建议,根据经验使用哪些工具来处理这个问题?
答案 0 :(得分:1)
8个日志文件似乎不保证任何“大数据”技术。如果你确实想要开始使用这些类型的技术,我建议你从Spark和/或Flink开始 - 两者都有相对类似的编程模型,两者都可以处理“业务实时”(Flink更擅长)流媒体,但两者似乎适用于你的情况)。 Storm是相对严格的(难以改变拓扑)并且具有更复杂的编程模型