根据快速实现[Cassandra SF中的演示] - Cassandra,CFS,作业/任务跟踪器和Hive Metastore在单个JVM中运行,这与配置独立的hadoop集群完全不同。
这是一个优势吗?
如果任务跟踪器或JVM中的任何单个进程失败,会发生什么?这会影响同一JVM中的cassandra实例吗?
CFS如何从中获取数据?它是将SSTables存储为子块还是副本?子块的压缩在哪里完成?
此致 泰米尔语
答案 0 :(得分:3)
Brisk确实在一个JVM中运行所有这些,但是在不相互影响的独立线程中运行。跟踪器在专用节点上运行,但没有单点故障。可以选择任何节点来运行跟踪器,并且所有状态都持久保存到Cassandra集群。
它在同一个JVM中的优势在于,没有用于将数据从Cassandra移动到Hadoop代码中的复制和序列化开销。
CassandraFS将64MB HDFS块分成2MB块,并将它们存储为Cassandra中的列,每块一行。文件本身将映射到inodes列族中的块行UUID列表。