标签: postgresql apache-spark postgresql-9.1 parquet
我正在一个项目,该项目需要从庞大的PostgreSQL数据库中生成镶木地板文件。数据大小可以是巨大的(例如:10TB)。我对这个主题还很陌生,并且已经在网上进行了一些研究,但是没有找到将数据转换为Parquet文件的直接方法。这是我的问题:
希望我的问题很明确,非常感谢您提供任何有用的反馈。预先感谢!
答案 0 :(得分:0)
为此卷使用 ORC 格式而不是镶木地板格式。 我假设数据是分区的,所以我认为利用数据分区并行提取是个好主意。