使用Hive清理大数据

时间:2013-07-16 02:46:13

标签: hadoop hive data-cleansing

我正在使用Hive来查询我拥有的数据。问题是,这些数据需要清理,这对我来说太大了,无法在我的计算机上尝试处理它(因此使用Hadoop和Hive)。有没有办法让我用Hive做到这一点?我查看了用户定义的函数,但我的理解是它们逐行操作,因此可能不是清理数据的最佳方法。

由于

2 个答案:

答案 0 :(得分:2)

您应该使用MapReduce程序清理数据。可能甚至连减速器都不会提高你的性能。

MapReduce程序的工作方式类似于缓冲文件阅读器,一次读取一行数据。您可以在每一行上执行清理操作,然后将其插入配置单元表进行查询。

答案 1 :(得分:1)

what is your data size?
what is your cleaning operation?

如果在Hive的帮助下无法完成清洁操作,那么只需使用mapreduce / pig。

如果你的问题是hive的表现,请尝试优化它。

优化取决于您的清洁操作。您可以使用distribution cachemap side joins等...