amazon-s3 - 如何使用apache钻孔将s3数据保存在内存中？

如何使用apache钻孔将s3数据保存在内存中？

时间：2016-01-25 17:09:42

标签： amazon-s3 apache-drill

使用apache drill查询存储在aws s3上的JSON数据非常棒，但是对于每个查询，钻取从s3获取新数据。

如何告诉drill将数据保存在内存中以供下次查询？

2 个答案:

答案 0 :(得分：0)

查询完成后，Apache drill不会存储数据。

根据文件

分布式缓存：Drill使用分布式缓存来管理元数据（ 非数据 ）和各种节点之间的配置信息。存储在缓存中的样本元数据信息包括查询计划片段，查询执行的中间状态和统计信息。 Drill使用Infinispan作为其缓存技术。

退房钻取architecture了解更多详情。

答案 1 :(得分：0)

我找到的最佳解决方案是使用http://tachyon-project.org/它使用Ramdrive存储数据，因此来自s3的数据仅被提取一次，之后apache drill直接从tachyon读取数据。首先设置tachyon看起来很复杂，但最后你只需要在配置中改变6行并将tachyon jar复制到钻孔中。

更新2016-07-22
经过一些测试后，我发现快速过于复杂。现在我使用s3 sdk中的同步工具和linux和Linux上的ramdrive。 osx保持数据的快速访问，到目前为止效果非常好。

更新2018-02-09
最后我们选择了一个Linux RAM驱动器，效果非常好