应用错误收集

我正在做一个关于如何将数据从共享网络驱动器导入HDFS的POC。数据将位于共享驱动器上的不同文件夹中，每个文件夹将对应HDFS上的不同目录。我查看了一些流行的工具，但是大多数工具都用于移动小块数据，而不是整个文件。这些是我找到的工具，还有其他工具吗？

Apache Flume：如果只有少数生产服务器生成数据并且数据不需要实时写出，那么将数据移动到也可能也是有意义的HDFS通过Web HDFS或NFS，特别是如果写出的数据量相对较少 - 每几个小时几GB的几个文件不会伤害HDFS。在这种情况下，规划，配置和部署Flume可能不值得。 Flume实际上是为了实时推送事件，数据流是连续的，其数量相当大。 [来自safari online和flume cookbook的Flume书]

Apache Kafka：生产者 - 消费者模型：消息持久存储在磁盘上并在群集中复制，以防止数据丢失。每个代理都可以处理数TB的消息，而不会对性能产生影响。

亚马逊Kinesis ：像Flume这样的实时数据的付费版

WEB HDFS：提交HTTP PUT请求，不会自动关注重定向，也不会发送文件数据。使用Location头中的URL和要写入的文件数据提交另一个HTTP PUT请求。 [http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]

开源项目： https://github.com/alexholmes/hdfs-file-slurper

我的要求很简单：

轮询目录中的文件，如果有文件，则将其复制到HDFS并将文件移动到“已处理”目录。
我需要为多个目录执行此操作

用于将文件从本地文件系统移动到HDFS的Hadoop工具

3 个答案: