如何过滤配置单元中的旧记录

时间:2018-08-17 15:58:26

标签: elasticsearch hive

  1. 我有一个拥有4000万条记录的配置单元表

  2. 有一个远程弹性搜索索引,该索引从蜂巢中获取数据

  3. 每周都会重新创建一次蜂巢表(刷新)

  4. 当前,每周还会重新创建弹性搜索索引。

现在

  1. 如何过滤掉蜂巢表中已经存在的记录。

a。这里有一个问题[docid1,docid2,pagerank_value]-该PageRank值可能每周都会更新

b。如果我在子查询中不使用它来过滤掉旧记录-那么下面是场景

  

[docid1,docid2,pagerank_value_old]-现在不需要此记录

     

[docid1,docid2,pagerank_value_new]-现在需要此记录

如何处理?

谢谢

0 个答案:

没有答案