通过独特的技术将数据摄入HDFS

时间:2015-08-20 10:28:40

标签: hadoop hdfs oozie

我想将远程半结构化数据(MS word / PDF / JSON)从远程计算机传输到hadoop(可以是批处理的,可以接近实时但不是流)。

我必须确保将数据从远程位置快速移动到我的本地计算机(在低带宽上工作)到HDFS或本地计算机。 例如,Internet Download Manager具有这种与FTP建立多个连接并利用低带宽和更多连接的惊人技术。

Hadoop生态系统是否有可能提供将数据提取到hadoop的工具。还是任何自制技术?

哪种工具/技术可能更好。