使用Spark或caseesndra查询日志文件的最佳方式

时间:2016-02-16 05:38:16

标签: apache-spark cassandra hdfs

我有不同服务器的日志文件(5台服务器通过LAN连接),我需要处理并获得结果

  • 每个节点都有4TB日志文件,而我正在使用HDFS将所有日志文件加载到Spark
  • 每当请求到来时,Spark加载所有文件(5 * 4TB)然后用Spark SQL查询

如果我将所有日志文件加载到caseesndra然后查询(可以预加载)怎么办?这是快速的方式..?

1 个答案:

答案 0 :(得分:0)

HDFS Cassandra 各有各的优势。

如果您需要完全处理所有日志文件, HDFS 是更好的选择,因为它是文件系统,并且设计为存储大量数据并按批处理。

现在,如果您只需要处理部分的日志文件,数据存储区(如 Cassandra )是更好的选择,因为您可以按主键过滤数据,访问速度更快,并跳过扫描所有文件。

Cassandra 专为OLTP工作负载而设计,而 HDFS 则设计用于 OLAP 工作负载