Question

有没有办法从java创建镶木地板文件？

我在内存中有数据（java类），我想把它写成一个镶木地板文件，以后再从apache-drill中读取它。

有没有一种简单的方法可以做到这一点，比如将数据插入到sql表中？

GOT IT

感谢您的帮助。

结合答案和这个link，我能够创建一个镶木地板文件并用钻头读回来。

Answer 1

ParquetWriter的构造函数已弃用（1.8.1）但不是ParquetWriter本身，您仍然可以通过在其中扩展抽象Builder子类来创建ParquetWriter。

这里有一个来自镶木地板创作者自己的例子ExampleParquetWriter：

  public static class Builder extends ParquetWriter.Builder<Group, Builder> {
    private MessageType type = null;
    private Map<String, String> extraMetaData = new HashMap<String, String>();

    private Builder(Path file) {
      super(file);
    }

    public Builder withType(MessageType type) {
      this.type = type;
      return this;
    }

    public Builder withExtraMetaData(Map<String, String> extraMetaData) {
      this.extraMetaData = extraMetaData;
      return this;
    }

    @Override
    protected Builder self() {
      return this;
    }

    @Override
    protected WriteSupport<Group> getWriteSupport(Configuration conf) {
      return new GroupWriteSupport(type, extraMetaData);
    }

  }

如果您不想使用Group和GroupWriteSupport（捆绑在Parquet中，但仅作为数据模型实现的示例），您可以使用Avro，Protocol Buffers或Thrift内存数据模型。以下是使用Avro编写Parquet的示例：

try (ParquetWriter<GenericData.Record> writer = AvroParquetWriter
        .<GenericData.Record>builder(fileToWrite)
        .withSchema(schema)
        .withConf(new Configuration())
        .withCompressionCodec(CompressionCodecName.SNAPPY)
        .build()) {
    for (GenericData.Record record : recordsToWrite) {
        writer.write(record);
    }
}

您将需要这些依赖项：

<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-avro</artifactId>
    <version>1.8.1</version>
</dependency>

<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-hadoop</artifactId>
    <version>1.8.1</version>
</dependency>

完整示例here。

Answer 2

一些可行的方法：

使用Java Parquet库直接从代码中编写Parquet。
使用JDBC连接到Hive或Impala并使用SQL插入数据。请注意，如果逐行插入行，将导致每个单独记录的单独文件，并将完全破坏性能。你应该一次插入 lot 行，这不是一件容易的事，所以我不推荐这种方法。
将数据保存到分隔的文本文件，然后在Hive或Impala中执行以下步骤：
- 在文本文件上定义一个表，以允许Hive / Impala读取数据。我们将此表text_table称为。有关详细信息，请参阅Impala的Create Table Statement。
- 创建一个具有相同列的新表，但将Parquet指定为其文件格式。我们称这个表为parquet_table。
- 最后执行insert into parquet_table select * from text_table将所有数据从文本文件复制到镶木桌。

在java中创建镶木地板文件

2 个答案: