应用错误收集

时间：2018-05-04 09:39:06

标签： hadoop flume

我们的服务器每时每刻都会收到很多文件。文件大小非常小。大约10 MB。我们的管理层希望制作Hadoop集群以分析和存储这些文件。但是在hadoop中存储小文件是无效的。是在hadoop或Flume中加入（制作一个大文件）这个文件的任何选项吗？非常感谢您的帮助。

答案 0 :(得分：0)

以下是我的想法：
1）使用Flume＆＃34; Spooling Directory Source＆＃34;。此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。将文件写入该目录。

2）使用你想要的Flume频道：＆＃34;记忆＆＃34;或＆＃34;文件＆＃34;。两者都有优点和缺点。

3）使用HDFS Sink写入HDFS。

＆＃34;假脱机目录来源＆＃34;将一旦摄取（或可选地删除）重命名该文件。数据也可以在崩溃或重启时幸存。这是文档： https://flume.apache.org/FlumeUserGuide.html#spooling-directory-source