是否可以将非文本文件读入Google数据流管道?

时间:2017-03-20 08:52:28

标签: google-cloud-dataflow apache-beam

我想将pdf文件读入管道。但是,我还没有找到关于纯文本或xml以外的文件格式的apache beam示例。

1 个答案:

答案 0 :(得分:1)

Dataflow或Apache Beam库中没有预先存在的PDF阅读器。但是,您可以将此读取器的示例用作TensorFlow记录作为模型,使用您选择的PDF解析库编写自己的。

https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/TFRecordIO.java