是否可以在Apache Flume中加入大量文件?

时间:2018-05-04 09:39:06

标签: hadoop flume

我们的服务器每时每刻都会收到很多文件。文件大小非常小。大约10 MB。我们的管理层希望制作Hadoop集群以分析和存储这些文件。但是在hadoop中存储小文件是无效的。是在hadoop或Flume中加入(制作一个大文件)这个文件的任何选项吗? 非常感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

以下是我的想法:
1)使用Flume" Spooling Directory Source"。此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。 将文件写入该目录。

2)使用你想要的Flume频道:"记忆"或"文件"。两者都有优点和缺点。

3)使用HDFS Sink写入HDFS。

"假脱机目录来源"将一旦摄取(或可选地删除)重命名该文件。数据也可以在崩溃或重启时幸存。 这是文档: https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source