标签: python hadoop hive bigdata
我创建了外部表,其中包含200GB数据的文本文件。因为可能存在重复记录的可能性,在这种情况下我必须抛出异常。
我想使用group by我们可以消除重复,但在我的情况下,我必须在存在重复记录时中止该过程。
请让我知道,如何处理这个问题?有可能使用python UDF或Hive(版本0.13)本身我们可以解决这个问题吗?
提前致谢。