如何使用apache钻孔将s3数据保存在内存中?

时间:2016-01-25 17:09:42

标签: amazon-s3 apache-drill

使用apache drill查询存储在aws s3上的JSON数据非常棒,但是对于每个查询,钻取从s3获取新数据。

如何告诉drill将数据保存在内存中以供下次查询?

2 个答案:

答案 0 :(得分:0)

查询完成后,Apache drill不会存储数据。

根据文件

  

分布式缓存:Drill使用分布式缓存来管理元数据 非数据 )和各种节点之间的配置信息。存储在缓存中的样本元数据信息包括查询计划片段,查询执行的中间状态和统计信息。 Drill使用Infinispan作为其缓存技术。

退房 钻取architecture了解更多详情。

答案 1 :(得分:0)

我找到的最佳解决方案是使用http://tachyon-project.org/它使用Ramdrive存储数据,因此来自s3的数据仅被提取一次,之后apache drill直接从tachyon读取数据。首先设置tachyon看起来很复杂,但最后你只需要在配置中改变6行并将tachyon jar复制到钻孔中。

更新2016-07-22
经过一些测试后,我发现快速过于复杂。现在我使用s3 sdk中的同步工具和linux和Linux上的ramdrive。 osx保持数据的快速访问,到目前为止效果非常好。

更新2018-02-09
最后我们选择了一个Linux RAM驱动器,效果非常好