我的应用中有多个线程根据正在执行的工作生成日志文件。它们通常在多天内运行多次迭代,并生成接近15-20 GB的数据。我从每个日志迭代中提取特定字段,并将它们与日志一起存储。
我需要对这些字段执行数据分析,并可能在将来从原始日志中提取更多数据。 我发现自己编写了更多的代码来管理这些文件,进行求和,平均,最小,最大等分析,并根据它生成报告。还要编写代码以确保从线程生成的数据正确存储在文件中。 是否有可能通过使用适当的数据库来抽象出这些问题?
是否有符合以下要求的数据库
基于文件
允许我进行数据分析,如总和,最小值,最大值,平均值,基于特定字段的合并等。
我遇到了RethinkDB,它看起来像我想要的解决方案,但事实证明它仍然没有生产就绪,只能在Linux上支持。
...谢谢