标签: google-cloud-dataflow apache-beam
我想将pdf文件读入管道。但是,我还没有找到关于纯文本或xml以外的文件格式的apache beam示例。
答案 0 :(得分:1)
Dataflow或Apache Beam库中没有预先存在的PDF阅读器。但是,您可以将此读取器的示例用作TensorFlow记录作为模型,使用您选择的PDF解析库编写自己的。
https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/TFRecordIO.java