应用错误收集

从HDFS加载实木复合地板文件比从S3加载慢。可能是什么原因呢？

时间：2018-11-14 16:52:56

标签： hadoop amazon-s3

我在HDFS中有数百个实木复合地板文件。我在AWS S3中也有相同的文件。在EMR集群上，我运行了机器学习模型，该模型可以从HDFS或S3中获取其学习数据。

从HDFS加载数据时，与从S3加载数据相比，花费的时间更长。不应该相反吗？可能是什么原因？

很明显，两种情况下EMR群集中使用的硬件（机器）都是相同的。

1 个答案:

答案 0 :(得分：0)

S3在加载大量文件时出现问题

当您使用许多小文件（小于128 MB的块大小）时，Hadoop会出现问题

假设YARN设置相同，我将查看HDFS卷的IOP速率，并确保NodeManager与Datanode在同一台机器上运行