Kubernetes分布式文件系统

时间:2019-01-14 08:48:06

标签: hadoop kubernetes filesystems

嗯,我的公司正在考虑从Hadoop迁移到Kubernetes。我们可以在Kubernetes中找到诸如cassandra,sparks等工具的解决方案。因此,我们的最后一个问题是如何在Kubernetes中存储大量文件,例如1 PB。仅供参考,我们不想使用S3等在线存储服务。

据我所知,HDFS仅用于Kubernetes,并且有一些替代产品,例如Torus和Quobyte。所以我的问题是,对Kubernetes上的文件系统有什么建议吗?还是有更好的解决方案?

非常感谢。

1 个答案:

答案 0 :(得分:1)

您可以使用 Hadoop兼容文件系统,例如Ceph或Minio。两者都提供用于读取和写入的S3兼容REST API。在Kubernetes中,可以使用Rook项目来部署Ceph。

但是总的来说,在Kubernetes中运行HDFS将需要有状态的服务,例如NameNode和DataNode,并具有适当的亲和力和网络规则。 Hadoop Ozone项目的一个实现是,对象存储对于微服务工作负载比HDFS块存储更为常见,因为合理地尝试使用分布式微服务来分析数据PB是不可行的。 (我只是在猜测)

替代方法是use Docker support in Hadoop & YARN 3.x