应用错误收集

如何使用python UDF删除hive外部表中的重复记录？

时间：2015-09-28 17:36:09

标签： python hadoop hive bigdata

我创建了外部表，其中包含200GB数据的文本文件。因为可能存在重复记录的可能性，在这种情况下我必须抛出异常。

我想使用group by我们可以消除重复，但在我的情况下，我必须在存在重复记录时中止该过程。

请让我知道，如何处理这个问题？有可能使用python UDF或Hive（版本0.13）本身我们可以解决这个问题吗？

提前致谢。

0 个答案:

没有答案