应用错误收集

时间：2015-07-17 06:43:41

标签： hadoop etl

我需要构建一个服务器，在目录中读取大型csv数据文件（100GB），转换某些字段并将它们流式传输到Hadoop集群。

这些文件随机时间（100次/天）从其他服务器复制。完成复制文件需要很长时间。

我需要：

我的问题是：是否有一个开源ETL工具可以提供所有5个，并且可以很好地与Hadoop / Spark Stream配合使用？我认为这个过程相当标准，但我还没找到。

谢谢。

答案 0 :(得分：1)

Flume或Kafka将满足您的目的。两者都与Spark和Hadoop完美集成。

答案 1 :(得分：0)

试着看一下伟大的图书馆https://github.com/twitter/scalding。也许它可以指出你正确的方向：）