使用FTP over Hadoop for Large Files

时间:2018-05-15 14:47:33

标签: hadoop ftp

我们想要一个应该存储大量大型csv文件的系统(1000个文件,每天1GB)。

并且有一些客户端应该连接到此系统并下载csv文件

系统应具有容错性和可扩展性......

我考虑一个Hadoop集群并在其上运行FTP服务器......

Hadoop适合这个项目吗?

如果没有,哪种技术适用?

1 个答案:

答案 0 :(得分:1)

是的,Hadoop Framework适用于大型文件(可能是摄取文件大小超过256 MB的块大小)。

Hadoop的主要优点是它可以在廉价的硬件上运行。 Hadoop在处理小文件方面存在一些问题(在Kb中)。

Hadoop提供容错功能,因为文件将在群集中复制3次(默认),可以增加或减少。

Hadoop允许跨节点分布式处理数据。

它也很容易扩展。

如果要在2个HDFS群集之间复制,则有Distcp进程 可以查看以下链接

https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cdh_admin_distcp_data_cluster_migrate.html