在Python中设置单个操作的并行度

时间:2016-01-21 20:38:10

标签: python apache-flink

我使用dop执行我的程序> 1但我不想要多个输出文件。在Java myDataSet.writeAsText(outputFilePath, WriteMode.OVERWRITE).setParallelism(1);正在按预期工作。

但是当我在Python中尝试相同时它不起作用。这是我的代码:myDataSet.write_text(output_file, write_mode=WriteMode.OVERWRITE).set_degree_of_parallelism(1)

在Python中实现这种行为是否有可能?

2 个答案:

答案 0 :(得分:4)

这不是错误,而是不受支持的功能。目前无法为单个运算符设置并行度,而只能为完整的作业设置并行度。

我为此开了一个JIRA:https://issues.apache.org/jira/browse/FLINK-3275

答案 1 :(得分:1)

对于不知情的用户,Apache Flink几个月前就添加了此功能。

这是Flink的简短文档: -

  

通过在ExecutionEnvironment上调用setParallelism(int parallelism)或将-p传递给Flink命令行前端,可以覆盖整个作业的默认并行度。通过在运算符上调用setParallelism(int parallelism),可以覆盖单个转换。