我看到在导入和存储到HDFS时使用了不同的文件格式,并且数据处理引擎在执行他们自己的一套程序时也使用这些格式。这些文件格式有何不同之处以及他们如何选择不同的文件格式用例。作为一个新手,它会造成混乱。坚持帮助。
答案 0 :(得分:4)
选择取决于您所面临的用例,具体取决于您拥有的数据类型,与处理工具的兼容性,架构演变,文件大小,查询类型和读取性能。
一般来说:
以下是一些可以帮助您的钥匙
写作表现(+越快越好)
阅读表现(+越快越好)
文件大小(越多+文件越小)
以下是关于每种文件类型的一些事实
Avro:
实木复合地板:
SequenceFile:
我希望我的回答能帮到你