Question

我正在尝试比较hadoop-hive中的复制表（hive-internal比较外部）以查看是否存在任何错误。因此我做了以下查询：

>>> import os
>>> os.chdir
<built-in function chdir>
>>> import warnings
>>> warnings.warn
<built-in function warn>
>>> import json
>>> json.dumps
<function dumps at 0x7f3643a240d0> # not built-in
>>> dir
<built-in function dir>
>>>

总列数和UNION ALLs大约为50，表格的行数大约为30＆000;当我运行查询时，一些列是不同的。如果我再次运行它，具有差异的列奇怪地改变（好像依赖于随机过程）。虽然有3列客观上不同，但它们总是显示为不同。

我无法理解为什么答案会发生变化以及为什么总有一些误报，因为这里没有明确的随机函数。

是不是因为Hive管理每个节点的任务？

这会发生在集中式系统上而不是分布式系统吗？

hive在运行两次时给出不一致的结果

0 个答案: