我们的服务器每时每刻都会收到很多文件。文件大小非常小。大约10 MB。我们的管理层希望制作Hadoop集群以分析和存储这些文件。但是在hadoop中存储小文件是无效的。是在hadoop或Flume中加入(制作一个大文件)这个文件的任何选项吗? 非常感谢您的帮助。
答案 0 :(得分:0)
以下是我的想法:
1)使用Flume" Spooling Directory Source"。此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。
将文件写入该目录。
2)使用你想要的Flume频道:"记忆"或"文件"。两者都有优点和缺点。
3)使用HDFS Sink写入HDFS。
"假脱机目录来源"将一旦摄取(或可选地删除)重命名该文件。数据也可以在崩溃或重启时幸存。 这是文档: https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source