看看snakebite,它是一个非常棒的python包,用于运行hadoop fs
命令集
我需要在python中运行hadoop dfsadmin
组命令。编写需要运行hadoop dfsadmin -report
和hadoop dfsadmin -refreshNodes
那么,对于那些在hadoop操作任务上编写工具的所有优秀的python开发人员,运行这些命令集的推荐方法是什么?
脱销是非常昂贵的,还有其他推荐的方法/建议吗?
答案 0 :(得分:1)
您可以使用hdfs thrift库。我不确定图书馆有多完整,但这里有一些链接。你最好的选择是引用Python的Clouderas Hue库。我确实看到了一个函数调用refreshNodes。
HDFS Thrift页面http://wiki.apache.org/hadoop/HDFS-APIs
用于HDFS的Cloudera Hue库 - 这些是由Thrift https://github.com/cloudera/hue/tree/master/desktop/libs/hadoop/gen-py/hadoop/api/hdfs自动生成的
hdfs.thrift https://github.com/cloudera/hue/blob/master/desktop/libs/hadoop/java/if/hdfs.thrift