这是因为镶木地板文件使得OLAP查询更快,因为它是柱状格式,但另一方面,datalake是重复的(原始数据+镶木地板数据)。 即使拼花可以压缩,你不认为复制所有数据会花费很多吗?
答案 0 :(得分:0)
这取决于您的使用案例。如果由于各种原因需要数据,可能需要复制,比如分段数据和查询。
Parquet最适合查询,特别是OLAP查询,它经常只涉及某些列。同时,编写Parquet文件需要比其他文件更多的时间。
简而言之,如果您的两个数据都是OLAP查询的目标,则可能需要考虑仅使用该文件的Parquet版本。