标签: hadoop etl
我需要构建一个服务器,在目录中读取大型csv数据文件(100GB),转换某些字段并将它们流式传输到Hadoop集群。
这些文件随机时间(100次/天)从其他服务器复制。完成复制文件需要很长时间。
我需要:
我的问题是:是否有一个开源ETL工具可以提供所有5个,并且可以很好地与Hadoop / Spark Stream配合使用?我认为这个过程相当标准,但我还没找到。
谢谢。
答案 0 :(得分:1)
Flume或Kafka将满足您的目的。两者都与Spark和Hadoop完美集成。
答案 1 :(得分:0)
试着看一下伟大的图书馆https://github.com/twitter/scalding。也许它可以指出你正确的方向:)