Flume的一些问题

时间:2018-12-23 19:31:35

标签: hadoop bigdata flume

我想使用Flume将大量文件发送到hadoop,我有使用假脱机的想法,但是我有这样的问题:

  1. 将文件发送到hadoop时,假脱机中的文件不会移动到任何地方,这使我想知道假脱机中是否有新文件,Flume如何识别旧文件和新文件?

  2. Flume将文件上传到hadoop后如何将假脱机中的文件移动到另一个文件夹?还是Flume有一种备份文件的机制?

  3. 我知道Flume具有一些有助于使用正则表达式的属性,但是我不知道Flume是否支持将文件发送到hadoop并将这些文件分类到基于regex的目录中?如果是这样,我该怎么办?
  4. Flume是否支持将文件发送到hadoop并根据发送日期将其分类到目录中? (我已经在HDFS Sink中阅读了该部分,但是当我尝试失败时)
  5. 在使用Flume将文件发送到hadoop的同时,我可以修复文件内容,例如在数据流中添加文件名或更改“;”。变成“ |”?
  6. 我可以使用任何API或任何工具来监视Flume文件传输到hadoop吗?例如,在文件传输期间,查看有多少文件已传输到hadoop或成功提交了多少文件以及有多少文件发送到hadoop失败。
  7. Flume是否使用hadoop记录交易日志?例如,有多少文件已上传到hadoop,...

我知道我问的太多了,但是我对Flume感到很困惑,我真的需要您的帮助。期待您的帮助。谢谢

0 个答案:

没有答案