我正在使用Apache Drill 1.8。对于测试海豚,我用.csv制作了两个木地板文件。 CSV大约4GB,镶木地板带有gz编解码器120MB,第二块镶木地板带有snappy编解码器,大约250GB。
由于Spark使用snappy作为默认编解码器,并且snappy应该通过性能更快地面对一个问题。
这是我在Hadoop上使用块大小等的文件:
答案 0 :(得分:0)
在您的原始帖子中,您说带有活泼文件的镶木地板为250 GB,您的意思是250 MB?
至少对于HDFS,您希望实木复合地板文件的大小(行组)等于块大小。您可能有问题,因为块大小为128 MB,文件大小为250 MB。