如何将HDFS文件读入Apache Beam?

时间:2018-07-21 16:50:42

标签: hadoop google-cloud-platform hdfs google-cloud-dataflow apache-beam

我无法理解如何使用TextIO进行阅读。有人可以举例说明吗?

1 个答案:

答案 0 :(得分:1)

尝试以下方法。在我的情况下有效。

String[] args1 = new String[] {
    "--hdfsConfiguration=[{\"fs.defaultFS\":\"hdfs://localhost:9000\"}]" };

HadoopFileSystemOptions options =
    PipelineOptionsFactory.fromArgs(args1).withValidation().as(
        HadoopFileSystemOptions.class);

Pipeline pipeline = Pipeline.create(options);
pipeline.apply(
    TextIO.read().from("hdfs://localhost:9000/path-to-file/*"));