我需要创建一个数据管道,其中source是HTTP,Sink是HDFS,用于发布数据和文件。问题是我想保存与最初发送到HTTP源的扩展名相同的文件。
我使用以下脚本
创建了一个流Stream创建httpToHdfs --defination“http | HDFS”--deploy
但是当我以.gzip /.xml / .json格式上传文件时,它会将文件存储在.txt中
我只想通过HTTP源在HDFS中复制文件,是否可以使用spring xd?
答案 0 :(得分:0)
hdfs
接收器用于将基于文本的流写入hdfs。它需要一个名为--fileExtension
的选项,您可以在其中指定文件扩展名。此接收器不用于复制二进制文件,但是,您必须为此使用自定义批处理作业,并且一旦文件可用,您的http源就会向批处理作业发送消息。提供的批处理作业filepollhdfs
可以为CSV文件执行类似操作。