虽然以前提到过Windows上的hadoop / HDFS的一般问题,但我还没有看到有人提出用例我认为对Windows支持最重要:Windows终端站如何参与HDFS环境并消耗存储在HDFS中的文件。
特别是,假设我们有一个很好的基于Linux的HDFS环境,有大量的节点和分析工作正在运行等等,所有人都很高兴。 Windows桌面如何使用这些文件?假设我们的分析从数以百万计的大多数无趣的内容中找到有趣的文件。现在我们想将它们带入桌面应用程序以进行可视化等。桌面消费这些内容的最自然方式是通过Windows共享,希望通过Windows服务器。
Windows的CIFS实施比Samba好几个数量级 - 我说这是一个事实,而不是争论的焦点。这并不是说Samba无法工作,只是因为有充分的理由非常强烈地希望将这个HDFS文件系统本质地导出为CIFS。可以通过一些工作流程来实现这一点,我们有一个后端流程来获取有趣的文件并复制它们。但是在许多情况下这很麻烦,并且不会让Windows傻瓜分析师轻易自由地探索文件。
因此,我正在寻找的是:
顺便说一句,如果我们在这个问题中用“GPFS”替换“HDFS”,那一切都可行。目前,这是我环境中HDFS和GPFS之间的关键区别。是的,还有很多比较点,但我现在不想关注GPFS和HDFS。
有人可以添加#GPFS标签吗?