我对数据分析完全陌生,我需要一些建议来开始一个新项目。
我有来自不同外围设备的许多日志文件,它们是自动付款机器的一部分。日志文件每天生成,每个日志文件长度在10k到100k之间。此外,日志文件具有或多或少相同的结构(Timestamp,Category,ProcID,ThreadID,Method,Message)。
我需要做的是:
执行此任务的最佳技术/框架是哪些?
我刚开始使用Apache Lucene进行日志解析,但我会欣赏任何建议。
目前我对编程语言没有任何限制,但最好是Java,C#或Python。 / p>
谢谢!
答案 0 :(得分:1)
这是一种数据库方法。您需要熟悉SQL。
这种方法的优点是可以轻松扩展。此外,大多数数据科学工具支持数据库。因此,您可以使用各种工具来检查/可视化您的数据。它还为您提供了可能需要的更复杂的操作。