假设我使用一个简单的BucketingSink
(其存储桶路径格式为"yyyy-MM-dd-HH-mm"
和一个StringWriter
)来收集String
对象到"hdfs://hdfs-namenode:9000/strings"
的流。现在,我希望能够在批处理作业中操作“字符串”数据集。当然,我不能只为"hdfs://hdfs-namenode:9000/strings"
创建HadoopIputFormat,因为它将是零件目录的目录。我没有在Flink的API中看到任何用于批处理环境的驱动程序来方便地阅读这种文件夹结构。我想念什么吗?如果没有,BucketingSink
的预期用例是什么,如果要使用它的输出,我似乎必须实现一个复杂的自定义阅读器。我应该改用DataStream.writeUsingOutputFormat
吗?