标签: apache-beam apache-beam-io
我是Apache Beam的新手,我正在尝试使用数据中的某一列对存储在HDFS中的木地板文件进行分区。
在Apache Beam中,我可以进行分区,但这是静态的。我使用最新的Java Beam SDK在后台使用Spark Runner。我将其用于批处理。
就像每个分区都需要hive一样,我想要拥有目录并存储数据,因此Hive可以对其进行进一步处理。