在HDFS中编写小文件

时间:2018-06-02 10:51:06

标签: hadoop hdfs

我知道这听起来很傻,并且理解hadoop不适用于小文件,但不幸的是我收到了6000多个小文件,每个大约50kb。

每次我尝试运行" hadoop fs -put -f / path / FOLDER_WITH_FILES / target / HDSF_FOLDER"在与namenode建立连接时,随机文件总是失败。

java.net.SocketTimeoutException: 75000 millis timeout while waiting for channel to be ready for read. ch : java.nio.channels.SocketChannel

我想知道是否有更好的方法在HDFS中写小。

由于

1 个答案:

答案 0 :(得分:0)

始终建议将所有小文件合并到hadoop序列文件中,然后对其进行处理。 它会给你带来性能提升。