我目前正在使用数据管道,作为其中一部分,我想在发生OvjectCreated事件时使用AWS Lambda将文件从S3复制到HDFS中。
到目前为止,我已经采取了两种方法,但都不是完美的。在一次尝试中,我使用WebHDFS和nodejs尝试上传文件,但是,文件块大小的上限非常小,这很困难。
我正在尝试的选项使用来自nodejs的ssh会话。在会话中,我运行hadoop distcp并复制文件。这行得通,但是很难知道是否发生了错误,因为distcp将很多东西转储到stderr,而很多东西只是信息。
我确定这是一个非常解决的问题。任何帮助表示赞赏。