目前,我面临着糟糕的数据性能问题。 例如。 hive表中的数据, 列:country,state,customer_name
列状态中存在拼写错误。 (即) TN ,但键入 TM
请通过清除不良数据来帮助我克服这个问题。
答案 0 :(得分:0)
我建议将数据加载到Temp表中,然后将主表加载到交叉验证中:数据状态表如(select * from temp_tbl where State in in(select'd'from STATE_TBL where parent.state = state)
这样程序不会失败并将错误捕获到其他记录或文件中。