如何使用python UDF删除hive外部表中的重复记录?

时间:2015-09-28 17:36:09

标签: python hadoop hive bigdata

我创建了外部表,其中包含200GB数据的文本文件。因为可能存在重复记录的可能性,在这种情况下我必须抛出异常。

我想使用group by我们可以消除重复,但在我的情况下,我必须在存在重复记录时中止该过程。

请让我知道,如何处理这个问题?有可能使用python UDF或Hive(版本0.13)本身我们可以解决这个问题吗?

提前致谢。

0 个答案:

没有答案