使用python在HDFS中创建文件

时间:2015-01-13 11:21:26

标签: python hadoop streaming hdfs

我正在尝试使用python在HDFS中创建文件/目录。 为了清楚起见,我正在使用Python编写的映射器运行Hadoop流式传输作业。这个映射器实际上是在尝试在HDFS中创建一个文件。 我读到有几个Python框架可以做到这一点,但我的兴趣是去Hadoop流。 那么,Hadoop流媒体有没有办法实现这一目标?。

1 个答案:

答案 0 :(得分:0)

您可以在脚本python中运行命令HDFS

import sys, subprocess

def run_cmd(args_list):
        proc = subprocess.Popen(args_list, stdout=subprocess.PIPE,stderr=subprocess.PIPE)
        (output, errors) = proc.communicate()
        if proc.returncode:
                raise RuntimeError('Error run_cmd')
        return (output, errors)

然后运行

(out, errors)=run_cmd(['hdfs','dfs','-mkdir','%s' %apth_HDFS_to_create_folder])