使用Parquet进行实时查询

时间:2016-01-21 19:36:39

标签: parquet presto

我正在尝试提供实时解决方案(可能在0.x秒内),我将使用Parquet存储数据。我想使用Presto和API来查询数据。

我的问题是,由于Parquet将数据存储在HDFS中,文件在关闭之前是不可见的,我如何有效地实现近实时查询结果?

Parquet文件必须足够快地在HDFS中关闭,以便让查询工具查看和使用它们。但是,这意味着我不能在每个Parquet文件中放入太多数据,最终会有太多小文件和/或不够实时。任何更好的想法,或Parquet不是一个很好的实时解决方案格式?

感谢您的任何意见!

0 个答案:

没有答案