我在同一个集群中有两个类似的模式表。 我想比较两个表之间的数据并生成报告。是否只能在hql中使用? 你有什么更好的建议吗?
感谢。
答案 0 :(得分:0)
你可以看看这个Python程序来处理Hive表的比较(比较所有行和所有列),并会在网页中显示可能出现的差异:https://github.com/bolcom/hive_compared_bq
它目前还没有为您提供完整的报告"但它只会找出一些发现的差异(该工具更适用于开发周期,检查代码是否正确)但我想你可以扩展程序的最后部分。