同步弹性搜索& cassandra与postgres数据库

时间:2016-10-04 12:09:56

标签: node.js postgresql elasticsearch cassandra synchronization

我想将两个依赖数据库(elasticsearch和casandra)与我的父数据库同步:postgres。我正在尝试在本文中实现一种方法:https://qafoo.com/blog/086_how_to_synchronize_a_database_with_elastic_search.html。所以我提出了两种方法

  1. 在更新/插入数据到相关数据库之前同步

     router.put('/account/edit', function(req, res) { 
    
      syncElasticWithDatabase().then(() => { 
             elastiClient.update({...}); // client for elasticsearch
             cassandraClient.execute({...}); // client for cassandra
              req.end();
      })
    
     })
    
  2. syncElasticWithDatabase()使用updates表中的数据(来自postgres),此方法可能很慢,因为有些人必须等待syncElasticWithDatabase()完成。我喜欢这种方法,因为我利用sequantial_ids(查看文章了解详情)。在新数据进入之前,数据会同步,从而允许依赖关系赶上,并且只会丢失错过的数据。与下面的选项2不同,防止重新索引/重新插入。

    1. 使用后台进程(ei:每24小时运行一次),我可以通过选择"错过的数据来同步数据"来自update_error表,其中包含elasticsearch或cassandra失败时的数据。这是一个粗略的例子

       router.put('/account/edit', function(req, res) { 
      
        psqlClient.query('UPDATE....').then(() => { 
             elastiClient.update({...}); // client for elasticsearch
             cassandraClient.execute({...}); // client for cassandra
        }).catch(err => {
            psqlClient.query('INERT INTO update_error ....')
            })
      
        })
      

      然而,这种方法需要重新索引或重新插入数据,因为在某些情况下,弹性搜索可能会插入数据而cassandra没有或任何一种方式。因此,我需要一个单独的列来记录失败的数据库类型。这样我就可以选择自上次同步时间以来每种类型数据库(ealsticsearch或cassandra)失败的数据。

    2. 问题

      1. 方法1似乎很完美,但这意味着由于syncElasticWithDatabase(),某些人必须等待更长时间才能更新其帐户。然而,上面的文章完全相同(看看他们的图表)或者我误解了什么?

      2. 由于上述延迟(如果我正确),我引入了选项2.但是为了同步恕我直言,它太多了。然而,我花了很多时间思考这个......那么有比1和2更简单或更好的方法吗?

      3. Apache Zoo Keeper会帮我办理吗?

      4. 谢谢:)

        其他参考

        Sync elasticsearch on connection with database - nodeJS

        https://gocardless.com/blog/syncing-postgres-to-elasticsearch-lessons-learned/

1 个答案:

答案 0 :(得分:0)

基本上,您需要使用此处描述的方法https://qafoo.com/blog/086_how_to_synchronize_a_database_with_elastic_search.html并插入&从一个数据库表中选择数据。但请确保在“更新”中选择数据时限制选择次数,例如:LIMIT 100

这是工作流程:

  1. insert/update期间将数据保存到“更新”表格(如果delete确保在列中将其标记为已删除)
  2. 然后运行此过程 - >

    • 选择您最后一次插入:来自elasticsearch或Cassandra
    • sequence_id
    • 使用它从“更新”表中选择数据,如:id > :sequence_id
  3. 然后您可以插入数据(到elasticsearch或cassandra)或做任何事情。确保将数据插入“更新”表之前的相关数据库。并且无需复制document_id,因此请用新的替换它们。这提供了一致性,允许您在运行cron作业或在特定操作中同时进行同步时进行选择。然后将sequence_id更新为最后一个。

    我选择在插入/更新/删除后直接将数据同步到“更新”,然后我执行res.end()(或完成响应的任何内容)并使用sync()函数在升序中选择100个新记录订购。我还每24小时运行一次cron作业(没有LIMIT 100),以确保任何遗漏的数据都会被同步。哦,是的,如果所有数据库的更新都成功,那么您也可以从“更新”中删除记录,除非您出于其他原因使用它。但请注意,elasticsearch可以在内存中丢失数据

    祝你好运:)我接受了建议