应用错误收集

时间：2016-02-16 05:38:16

标签： apache-spark cassandra hdfs

我有不同服务器的日志文件（5台服务器通过LAN连接），我需要处理并获得结果

如果我将所有日志文件加载到caseesndra然后查询（可以预加载）怎么办？这是快速的方式..？

答案 0 :(得分：0)

HDFS 和 Cassandra 各有各的优势。

如果您需要完全处理所有日志文件， HDFS 是更好的选择，因为它是文件系统，并且设计为存储大量数据并按批处理。

现在，如果您只需要处理部分的日志文件，数据存储区（如 Cassandra ）是更好的选择，因为您可以按主键过滤数据，访问速度更快，并跳过扫描所有文件。

Cassandra 专为OLTP工作负载而设计，而 HDFS 则设计用于 OLAP 工作负载