适用于Windows的HDFS“客户端”?再出口为CIFS?

时间:2012-10-25 11:23:21

标签: windows hdfs cifs

虽然以前提到过Windows上的hadoop / HDFS的一般问题,但我还没有看到有人提出用例我认为对Windows支持最重要:Windows终端站如何参与HDFS环境并消耗存储在HDFS中的文件。

特别是,假设我们有一个很好的基于Linux的HDFS环境,有大量的节点和分析工作正在运行等等,所有人都很高兴。 Windows桌面如何使用这些文件?假设我们的分析从数以百万计的大多数无趣的内容中找到有趣的文件。现在我们想将它们带入桌面应用程序以进行可视化等。桌面消费这些内容的最自然方式是通过Windows共享,希望通过Windows服务器。

Windows的CIFS实施比Samba好几个数量级 - 我说这是一个事实,而不是争论的焦点。这并不是说Samba无法工作,只是因为有充分的理由非常强烈地希望将这个HDFS文件系统本质地导出为CIFS。

可以通过一些工作流程来实现这一点,我们有一个后端流程来获取有趣的文件并复制它们。但是在许多情况下这很麻烦,并且不会让Windows傻瓜分析师轻易自由地探索文件。

因此,我正在寻找的是:

  • Windows服务器
  • HDFS作为“已安装”的文件系统; Windows被认为是HDFS“客户端”
  • 从Windows导出此文件系统作为CIFS服务器
  • 在Windows桌面上使用文件
  • 让所有常用的Windows组权限正常工作(例如,通过映射到NFSv4 ACL)。

顺便说一句,如果我们在这个问题中用“GPFS”替换“HDFS”,那一切都可行。目前,这是我环境中HDFS和GPFS之间的关键区别。是的,还有很多比较点,但我现在不想关注GPFS和HDFS。

有人可以添加#GPFS标签吗?

1 个答案:

答案 0 :(得分:0)

  

特别是,假设我们有一个很好的基于Linux的HDFS环境,有大量的节点和分析工作正在运行等等,所有人都很高兴。 Windows桌面如何使用这些文件?

HDFS通过WebHDFSHttpFS为各种操作提供REST API。可以从多种语言实用地访问REST API。另请注意,这些语言还具有可以轻松编写REST API编程的库。

没有尝试过,但根据Hadoop文档,还应该可以mount HDFS到Windows机器。