我需要在我用java编写的数据流中读取镶木地板文件并在bigquery上传。 由于没有开箱即用的功能,我知道我必须用hadoopFileFormat编写自定义源,但我无法找到任何相同的文档。有人可以帮我提供一些代码或文档,介绍如何编写自定义源或任何其他可用于在云数据流中读取镶木地板文件的方法。
答案 0 :(得分:0)
Built-in I/O Transforms的Apache Beam文档提供了Apache Beam中I / O转换的正在进行的工作列表。实际上,该列表包括用Java读取Apache Parquet文件,可以在BEAM-214 Jira。
中查看截至目前,您是对的,在Apache Beam / Cloud Dataflow中使用Parquet文件没有开箱即用的解决方案。但是,该领域正在取得进展,因此请随时了解我在上面分享的Jira的最新信息。
此外,您应该知道Stack Overflow不是要求代码的外部教程/文档的适当网站,因此您不太可能获得该类型的信息。根据{{3}}:
- 要求我们推荐或找到书籍,工具,软件的问题 库,教程或其他异地资源是Stack的偏离主题 溢出,因为他们倾向于吸引固执己见的答案和垃圾邮件。 相反,描述问题以及到目前为止已经完成的工作要解决 它。
醇>
相反,我建议你先自己尝试一下,然后回到这里,提出一些社区可以更好地回答的具体问题。