我收集了多条推文并将它们存储在hdfs中。 我知道我的hdfs中有很多部分文件。 它们非常小,如0.5 Ko,因为只有一条推文存储在一个文件中。 我想知道是否可以让他们喜欢这样,或者将它们合并到更大的文件中以便尝试达到最大块大小更好。
答案 0 :(得分:1)
由于许多原因,小文件问题对HDFS来说是一个很大的问题。
小文件可能存在其他问题,这些问题依赖于集成到基础架构中的其他组件。
长话短说:在一个单独的文件中存储一条推文是不一个好主意。尝试寻找特定的数据提取工具(例如Kafka),因此您可以将已预处理的大型文件写入系统。