我需要每天处理300 GB的日志文件(导入 - > 转换为其他格式 - > 上传)。
哪种技术最好选择? Spring Batch 或 Apache Hadoop ?我对这些技术很陌生,无法追踪那些限制。而且,文件大小可以无限增长。除此之外,我需要使用给定的硬件3 Sun Blade Server和灾难恢复方法来设计应用程序。请建议。
答案 0 :(得分:0)
如果它仅仅是文件格式转换,那么使用Hadoop是没有意义的,除非您可以将文件分成可以以令人难以置信的方式分布的块。
此外,如果您不需要再存储/索引/处理这些信息,则无需将其存储在某处。
最后但同样重要的是,评估将文件分解为单位的成本,作为整体计算成本的一部分。