数据如何进入HDFS文件系统

时间:2014-08-19 16:39:05

标签: hdfs

我试图了解来自多个来源和系统的数据如何进入HDF?我想从30多个系统推送Web服务器日志文件。这些日志位于18个不同的服务器上。

THX 韦埃尔

1 个答案:

答案 0 :(得分:0)

您可以创建map-reduce作业。映射器的输入将是位于服务器上的文件,您的reducer将扣除将文件放入hdfs的路径。您可以聚合reducer中的所有文件,也可以只按原样在给定路径上编写文件。

您可以使用Oozie来安排作业,也可以通过在托管作业跟踪服务的服务器上提交map-reduce作业来偶尔运行它。

您还可以创建一个使用hdfs api的java应用程序。 FileSystem对象可用于执行标准文件系统操作,例如将文件写入给定路径。

无论哪种方式,您都需要通过hdfs api请求创建,因为name节点负责将文件拆分为块并将其写入分布式服务器。