更新表分区期间的Hive-MetaStore问题

时间:2017-12-18 15:37:24

标签: java hive hive-metastore

我正在尝试使用Hive Java Api更新hive-table分区。以下是我要遵循的以下步骤: -

1.提取不在Metastore中的分区 2.将这些分区添加到表格中 3.返回Hive-Command行并运行show partitions和msck repair table命令,以确保一切正常。

我得到了什么: - 1.Show分区工作正常(给出我已添加的分区列表) 2.MSCK修复命令不起作用(获取此信息:Metastore中不存在分区。)

以下是我正在使用的代码: -

public class HiveMetastoreChecker {

public static void main(String[] args) {
    final String dbName = "db_name";
    final String tableName = "db_name.table_name";

    CheckResult result = new CheckResult();
    try {
        Configuration configuration = new Configuration();
        HiveConf conf = new HiveConf();
        conf.addResource(configuration);
        Hive hive = Hive.get(conf, true);
        HiveMetaStoreChecker checker = new HiveMetaStoreChecker(hive);

        Table table = new Table(dbName, tableName);

        table.setDbName(dbName);
        table.setInputFormatClass(TextInputFormat.class);
        table.setOutputFormatClass(HiveIgnoreKeyTextOutputFormat.class);

        table = hive.getTable(dbName, tableName);

        checker.checkMetastore(dbName, tableName, null, result);
        System.out.println(table.getDataLocation());
        List<CheckResult.PartitionResult> partitionNotInMs = result.getPartitionsNotInMs();
        System.out.println("not in ms " + partitionNotInMs.size());
        List<org.apache.hadoop.hive.ql.metadata.Partition> partitions = hive.getPartitions(table);

        System.out.println("partitions size " + partitions.size());
        AddPartitionDesc apd = new AddPartitionDesc(table.getDbName(), table.getTableName(), false);

        List<String> finalListOfPartitionsNotInMs = new ArrayList<String>();
        for (CheckResult.PartitionResult part : partitionNotInMs){
            if(!finalListOfPartitionsNotInMs.contains(part.getPartitionName().replace("/",""))){
                finalListOfPartitionsNotInMs.add(part.getPartitionName().replace("/",""));
            }
        }

        for (String partition:finalListOfPartitionsNotInMs) {

            apd.addPartition(Warehouse.makeSpecFromName(partition), table.getDataLocation().toString());
        }
       hive.createPartitions(apd);
    } catch (HiveException e) {
        e.printStackTrace();
    } catch (IOException e) {
        e.printStackTrace();
    } catch (MetaException e) {
        e.printStackTrace();
    }
}

}

任何形式的帮助都将受到赞赏 感谢。

1 个答案:

答案 0 :(得分:0)

MSCK REPAIR无法通过HIVE吗?如果是,则检查分区列名称是否在大写字母中。我在as s3上的PARTITION就像DCA = 1000时发现了同样的问题。

在这种情况下,请使用Spark SQL执行MSCK REPAIR,如果您不想将分区重命名为小写,它将进行确认。