实木复合地板和数据复制

时间:2016-01-19 10:31:53

标签: hadoop parquet

这是因为镶木地板文件使得OLAP查询更快,因为它是柱状格式,但另一方面,datalake是重复的(原始数据+镶木地板数据)。 即使拼花可以压缩,你不认为复制所有数据会花费很多吗?

1 个答案:

答案 0 :(得分:0)

这取决于您的使用案例。如果由于各种原因需要数据,可能需要复制,比如分段数据和查询。

Parquet最适合查询,特别是OLAP查询,它经常只涉及某些列。同时,编写Parquet文件需要比其他文件更多的时间。

简而言之,如果您的两个数据都是OLAP查询的目标,则可能需要考虑仅使用该文件的Parquet版本。

请参阅此文档以供参考。 http://www.slideshare.net/StampedeCon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2