我一直在尝试将“正确的”技术用于360度客户应用程序,它要求:
我尝试使用Hbase,满足第1点和第3点。但是我发现在HBase上进行分析(加载/保存/聚合)非常缓慢,它可能比Parquet慢10倍。我不明白为什么,Parquet和Hbase都是列式DB,并且我们已经很好地分散了HBase集群中的工作负载(“每个区域的请求”如此)。
有什么建议吗?我使用的工具是否正确?
答案 0 :(得分:2)
Parquet和Hbase都是柱状数据库
这种假设是错误的:
HFile
不面向列(Parquet 是)。HBase的运行速度非常慢,它的速度可能比Parquet慢10倍
由于HBase针对随机访问模式进行了优化,因此HBase完全扫描通常比等效的HDFS原始文件扫描要慢得多。您没有指定如何精确扫描表-TableSnapshotInputFileFormat
比朴素的TableInputFormat
快得多,但仍比原始HDFS文件扫描慢。