使用http源在HDFS中保存具有相同扩展名的文件(不同的扩展名)

时间:2015-02-21 18:30:04

标签: hadoop spring-xd

我需要创建一个数据管道,其中source是HTTP,Sink是HDFS,用于发布数据和文件。问题是我想保存与最初发送到HTTP源的扩展名相同的文件。

我使用以下脚本

创建了一个流

Stream创建httpToHdfs --defination“http | HDFS”--deploy

但是当我以.gzip /.xml / .json格式上传文件时,它会将文件存储在.txt中

我只想通过HTTP源在HDFS中复制文件,是否可以使用spring xd?

1 个答案:

答案 0 :(得分:0)

hdfs接收器用于将基于文本的流写入hdfs。它需要一个名为--fileExtension的选项,您可以在其中指定文件扩展名。此接收器不用于复制二进制文件,但是,您必须为此使用自定义批处理作业,并且一旦文件可用,您的http源就会向批处理作业发送消息。提供的批处理作业filepollhdfs可以为CSV文件执行类似操作。