首先,我想道歉,因为我没有正确谈论hive的词汇,我不确定连续出现的内容是否称为数据等等,我试图尝试尽可能正确。
我想知道它是否可行,而无需在hive表中添加额外的列(您可以在其中放置日期/某些元数据),新行添加的位置。
案例如下:将处理大量数据,所选数据在另一个hive表中结束。如果将一些新数据添加到原始表中,我只想处理新数据,而不是重新处理整个过程,因为它似乎很浪费(我们说的是数百万个条目)。 < / p>
我通常会添加一个包含日期的新列,或者只是元数据,告诉我行是否已经计算过&#34;计算&#34;用。
编辑:我已经更新了更多信息。事实证明,实际上存在两个问题,即imo。
一,可能会出现新数据,只需在目标表中插入新数据就会无比好。
其次,数据可能会更新。我被告知hive不允许正常意义上的更新,因为例如insert overwrite只会重写整个集合(原来它的Hive 0.12.0,并且在0.14中添加了一些功能)但是不可能更新。