我一直试图访问没有纱线等的hdfs,并且由于wikipedia宣传了thrift支持,我的印象是,hdfs / hadoop附带了一个(java)thrift服务器,你只需要定义客户端用您选择的语言(在我的案例中为Haskell)。
我还没有成功,很多信息似乎已经过时了 - 例如我无法为hdfs购买官方的thrift文件,官方链接here已被破坏。
深入了解服务器端,我发现有关hadoop-thriftfs-0.2的旧帖子提到了一个单独的thrift服务器启动,有时名为HadoopThriftServer here或there。
我无法确定此类服务器项目的当前状态(除了shady, probably obsolete download)。我当然可以使用java绑定自己实现thrift服务器,但由于我的印象应该已经完成,我宁愿不... (基础:来自old github project的规范)
节俭支持是否过时(可能会丢弃以支持REST API)?我忽略了一些明显的东西吗如果没有其他基础设施(使用java以外的语言),使用hadoop文件系统的正确方法是什么?
注意:大多数hadoop / thrift文档/示例都是针对hbase等,而不是普通的hdfs。目前我对hbase不感兴趣,在向堆栈添加另一个级别之前,我宁愿采用完全不同的方式。 我对以自己的方式确保数据局部性所需的hdfs函数特别感兴趣。