Presto支持哪些文件格式?是否有任何特定的文件格式可以提高性能。我有兴趣知道是否有像RCfile那样针对Presto优化的柱状文件格式?
答案 0 :(得分:7)
我们使用RCFile,SequenceFile和TextFile格式测试每个Presto版本,但Presto应该支持任何标准的Hadoop文件格式。在Facebook,我们的大部分数据都是RCFile格式,因此目前这种格式在Presto上表现最佳。我们正在转向ORC,并且随着接近完成,ORC在Presto中也应该非常快。
答案 1 :(得分:2)
最佳优化是ORC。 Parquet非常好,Netflix也有更多的优化。
答案 2 :(得分:1)
对于当前版本的presto,我推荐使用ORC文件,Dain已经完成了新的ORC阅读器,它非常快。 这是博客 https://code.facebook.com/posts/370832626374903/even-faster-data-at-the-speed-of-presto-orc/
答案 3 :(得分:0)
Presto目前支持Text,SequenceFile,RCFile,ORC和Parquet文件格式。 参考:https://prestodb.io/overview.html
答案 4 :(得分:0)
Hive连接器支持以下文件类型: •ORC •实木复合地板 •Avro •RCFile •序列文件 •JSON •文本 在我的实践中,最佳的最佳格式是ORC和Parquet。