我有不同服务器的日志文件(5台服务器通过LAN连接),我需要处理并获得结果
如果我将所有日志文件加载到caseesndra然后查询(可以预加载)怎么办?这是快速的方式..?
答案 0 :(得分:0)
HDFS 和 Cassandra 各有各的优势。
如果您需要完全处理所有日志文件, HDFS 是更好的选择,因为它是文件系统,并且设计为存储大量数据并按批处理。
现在,如果您只需要处理部分的日志文件,数据存储区(如 Cassandra )是更好的选择,因为您可以按主键过滤数据,访问速度更快,并跳过扫描所有文件。
Cassandra 专为OLTP工作负载而设计,而 HDFS 则设计用于 OLAP 工作负载