我正在尝试比较hadoop-hive中的复制表(hive-internal比较外部)以查看是否存在任何错误。因此我做了以下查询:
>>> import os
>>> os.chdir
<built-in function chdir>
>>> import warnings
>>> warnings.warn
<built-in function warn>
>>> import json
>>> json.dumps
<function dumps at 0x7f3643a240d0> # not built-in
>>> dir
<built-in function dir>
>>>
总列数和UNION ALLs大约为50,表格的行数大约为30&000;当我运行查询时,一些列是不同的。如果我再次运行它,具有差异的列奇怪地改变(好像依赖于随机过程)。虽然有3列客观上不同,但它们总是显示为不同。
我无法理解为什么答案会发生变化以及为什么总有一些误报,因为这里没有明确的随机函数。
是不是因为Hive管理每个节点的任务?
这会发生在集中式系统上而不是分布式系统吗?