所以我有一个大约600个木地板文件的目录,并使用木地板工具提取了文件的架构:
message spark_schema {
optional int64 af;
optional binary dst_addr (STRING);
optional binary dst_name (STRING);
optional binary from (STRING);
optional int64 fw;
optional int64 group_id;
optional binary li (STRING);
optional int64 lts;
optional binary mode (STRING);
optional int64 msm_id;
optional binary msm_name (STRING);
optional int64 poll;
optional int64 prb_id;
optional double precision;
optional binary proto (STRING);
optional binary refid (STRING);
optional double refts;
optional group result (LIST) {
repeated group bag {
optional group array {
optional binary error (STRING);
optional double finalts;
optional binary li (STRING);
optional double offset;
optional double origints;
optional int64 poll;
optional double precision;
optional double receivets;
optional binary refid (STRING);
optional double refts;
optional double rootdelay;
optional double rootdispersion;
optional double rtt;
optional binary stratum (STRING);
optional double transmitts;
optional binary x (STRING);
}
}
}
optional double rootdelay;
optional double rootdispersion;
optional binary src_addr (STRING);
optional binary stratum (STRING);
optional int64 timestamp;
optional double ttr;
optional binary type (STRING);
optional int64 version;
}
我的问题是如何使用它创建一个Hive表?然后用文件中的数据填充它?理想情况下,我需要使用Hive来查询600个文件中的所有数据。