这是更多与设计相关的问题。我是一名java开发人员,也是hadoop大数据世界的新成员;在我的Hortonworks HDP Sandbox中学习hadoop(它是Hortonworks提供的VM的单节点伪群集)。
我设计了一个Java restful api,它与我创建的虚拟数据库交互。 api / client将发送一系列" GET"请求uri并将结果体存储为本地hortonworks Unix服务器中的表格形式(TSV)文本文件。从那里我将copyFromLocal复制到HDFS以进行进一步处理。
是否有设计用于执行此操作的开源hadoop组件,我可以将api设计为Map-Reduce作业,并将reducers数量设置为零吗?我正在寻找更好的选择。
我可以在Hue / HDP中创建脚本操作或java操作作为oozie-work流程吗?
答案 0 :(得分:0)
如果您的所有目标都是以TSV的形式将数据从数据库中提取到HDFS,那么可以使用Sqoop tool轻松完成此操作。
Sqoop是一个Hadoop生态系统组件,它可以直接连接到您的rdbms数据库,并可以使用自定义分隔符导入表的记录。我希望这会简化您的要求的实施。