标签: hadoop hdfs oozie
我想将远程半结构化数据(MS word / PDF / JSON)从远程计算机传输到hadoop(可以是批处理的,可以接近实时但不是流)。
我必须确保将数据从远程位置快速移动到我的本地计算机(在低带宽上工作)到HDFS或本地计算机。 例如,Internet Download Manager具有这种与FTP建立多个连接并利用低带宽和更多连接的惊人技术。
Hadoop生态系统是否有可能提供将数据提取到hadoop的工具。还是任何自制技术?
哪种工具/技术可能更好。
答案 0 :(得分:1)
您可以使用Web HDFS API http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Document_Conventions