我们正在开发一个POC来在Hadoop中构建一个数据湖。在这方面,我们正在Hadoop之上评估ETL工具(Talend,Sqoop),Pig脚本,HIVE,Ooozie,Spark等。
我正在研究的清晰度是,
最重要的是,除了HIVE / PIG / OOzie之外,是否还需要任何Java组件?如果是,如何将这些java组件移动到hadoop?
我们是否有可能在java中编写一些自定义实用程序并在hadoop上下文中使用它们?这些Java组件将由Hive,Pig等使用......
任何回复和指导都将不胜感激。
-Prakhyat M M