标签: parquet presto
我正在尝试提供实时解决方案(可能在0.x秒内),我将使用Parquet存储数据。我想使用Presto和API来查询数据。
我的问题是,由于Parquet将数据存储在HDFS中,文件在关闭之前是不可见的,我如何有效地实现近实时查询结果?
Parquet文件必须足够快地在HDFS中关闭,以便让查询工具查看和使用它们。但是,这意味着我不能在每个Parquet文件中放入太多数据,最终会有太多小文件和/或不够实时。任何更好的想法,或Parquet不是一个很好的实时解决方案格式?
感谢您的任何意见!