我们想要一个应该存储大量大型csv文件的系统(1000个文件,每天1GB)。
并且有一些客户端应该连接到此系统并下载csv文件
系统应具有容错性和可扩展性......
我考虑一个Hadoop集群并在其上运行FTP服务器......
Hadoop适合这个项目吗?
如果没有,哪种技术适用?
答案 0 :(得分:1)
是的,Hadoop Framework适用于大型文件(可能是摄取文件大小超过256 MB的块大小)。
Hadoop的主要优点是它可以在廉价的硬件上运行。 Hadoop在处理小文件方面存在一些问题(在Kb中)。
Hadoop提供容错功能,因为文件将在群集中复制3次(默认),可以增加或减少。
Hadoop允许跨节点分布式处理数据。
它也很容易扩展。
如果要在2个HDFS群集之间复制,则有Distcp进程 可以查看以下链接