问题
当从hbase读到火花时,这些地区似乎决定了 火花分区,因此2G限制。 Hence problems with caching这是否意味着区域规模需要很小?
TableSnapshotInputFormat绕过区域服务器和 直接从快照中读取,也按区域创建它 所以仍然会陷入上面的区域大小问题。它是 可以直接从hfiles读取键值,在这种情况下 拆分大小由hdfs块大小决定。有没有 可以读取一行的扫描仪或其他工具的实现 直接来自hfile(具体来自引用hfile的快照)?
还有其他指示说可能有助于提升性能的配置吗?例如hdfs块大小等?主要用例是大部分的全表扫描。
答案 0 :(得分:0)
事实证明这实际上非常快。性能分析表明问题在于ip地址的一个对象表示,即InetAddress花费了大量资源来解析ip地址。我们决定使用原始字节来提取我们需要的东西。这本身就可以在大约2.5小时内完成工作。 将问题建模为Map Reduce问题并在MR2上运行具有相同的上述变化表明它可以在大约1小时20分钟内完成。 迭代性质和更小的内存占用有助于MR2实现更多的并行性,因此速度更快。