配置单元中的数据性能问题

时间:2016-11-12 16:55:33

标签: hive

目前,我面临着糟糕的数据性能问题。 例如。 hive表中的数据, 列:country,state,customer_name

列状态中存在拼写错误。 (即) TN ,但键入 TM

请通过清除不良数据来帮助我克服这个问题。

1 个答案:

答案 0 :(得分:0)

我建议将数据加载到Temp表中,然后将主表加载到交叉验证中:数据状态表如(select * from temp_tbl where State in in(select'd'from STATE_TBL where parent.state = state)

这样程序不会失败并将错误捕获到其他记录或文件中。