读取,转换并流式传输到Hadoop

时间:2015-07-17 06:43:41

标签: hadoop etl

我需要构建一个服务器,在目录中读取大型csv数据文件(100GB),转换某些字段并将它们流式传输到Hadoop集群。

这些文件随机时间(100次/天)从其他服务器复制。完成复制文件需要很长时间。

我需要:

  1. 定期检查要处理的新文件(即加密和流)
  2. 检查csv是否完全复制以启动加密
  3. Process并行处理多个文件,但阻止两个进程 流式传输相同的文件
  4. 标记正在成功传输的文件
  5. 标记 正在流式传输的文件未成功并重新启动流式传输 过程
  6. 我的问题是:是否有一个开源ETL工具可以提供所有5个,并且可以很好地与Hadoop / Spark Stream配合使用?我认为这个过程相当标准,但我还没找到。

    谢谢。

2 个答案:

答案 0 :(得分:1)

FlumeKafka将满足您的目的。两者都与Spark和Hadoop完美集成。

答案 1 :(得分:0)

试着看一下伟大的图书馆https://github.com/twitter/scalding。也许它可以指出你正确的方向:)