以Parquet格式保存PostgreSQL数据

时间:2018-06-22 22:25:39

标签: postgresql apache-spark postgresql-9.1 parquet

我正在一个项目,该项目需要从庞大的PostgreSQL数据库中生成镶木地板文件。数据大小可以是巨大的(例如:10TB)。我对这个主题还很陌生,并且已经在网上进行了一些研究,但是没有找到将数据转换为Parquet文件的直接方法。这是我的问题:

  1. 我看到的唯一可行的解​​决方案是通过JDBC将Postgres表加载到Apache Spark并另存为实木复合地板文件。但是我认为传输10TB数据会非常慢。
  2. 是否可以生成10 TB的巨大木地板文件大小?还是创建多个实木复合地板文件更好?

希望我的问题很明确,非常感谢您提供任何有用的反馈。预先感谢!

1 个答案:

答案 0 :(得分:0)

为此卷使用 ORC 格式而不是镶木地板格式。 我假设数据是分区的,所以我认为利用数据分区并行提取是个好主意。