Question

所以我有一个大约600个木地板文件的目录，并使用木地板工具提取了文件的架构：

message spark_schema {
  optional int64 af;
  optional binary dst_addr (STRING);
  optional binary dst_name (STRING);
  optional binary from (STRING);
  optional int64 fw;
  optional int64 group_id;
  optional binary li (STRING);
  optional int64 lts;
  optional binary mode (STRING);
  optional int64 msm_id;
  optional binary msm_name (STRING);
  optional int64 poll;
  optional int64 prb_id;
  optional double precision;
  optional binary proto (STRING);
  optional binary refid (STRING);
  optional double refts;
  optional group result (LIST) {
    repeated group bag {
      optional group array {
        optional binary error (STRING);
        optional double finalts;
        optional binary li (STRING);
        optional double offset;
        optional double origints;
        optional int64 poll;
        optional double precision;
        optional double receivets;
        optional binary refid (STRING);
        optional double refts;
        optional double rootdelay;
        optional double rootdispersion;
        optional double rtt;
        optional binary stratum (STRING);
        optional double transmitts;
        optional binary x (STRING);
      }
    }
  }
  optional double rootdelay;
  optional double rootdispersion;
  optional binary src_addr (STRING);
  optional binary stratum (STRING);
  optional int64 timestamp;
  optional double ttr;
  optional binary type (STRING);
  optional int64 version;
}

我的问题是如何使用它创建一个Hive表？然后用文件中的数据填充它？理想情况下，我需要使用Hive来查询600个文件中的所有数据。

基于Parquet文件架构创建Hive表

0 个答案: