我试图了解来自多个来源和系统的数据如何进入HDF?我想从30多个系统推送Web服务器日志文件。这些日志位于18个不同的服务器上。
THX 韦埃尔
答案 0 :(得分:0)
您可以创建map-reduce作业。映射器的输入将是位于服务器上的文件,您的reducer将扣除将文件放入hdfs的路径。您可以聚合reducer中的所有文件,也可以只按原样在给定路径上编写文件。
您可以使用Oozie来安排作业,也可以通过在托管作业跟踪服务的服务器上提交map-reduce作业来偶尔运行它。
您还可以创建一个使用hdfs api的java应用程序。 FileSystem对象可用于执行标准文件系统操作,例如将文件写入给定路径。
无论哪种方式,您都需要通过hdfs api请求创建,因为name节点负责将文件拆分为块并将其写入分布式服务器。