Elasticsearch - 我需要JDBC驱动程序吗?

时间:2014-09-10 11:17:48

标签: php lucene elasticsearch

目标

将我的elasticsearch服务器与我的SQL数据库中的新数据和过期数据同步

问题

我可以通过两种截然不同的方式实现这一目标,但我不知道哪种方式更好。我可以使用JDBC river插件直接连接到SQL数据库,以信息到elasticsearch。或者,我可以使用PHP客户端数据推送到elasticsearch,使用下面显示的代码作为示例:

// The Id of the document
$id = 1;

// Create a document
$tweet = array(
    'id'      => $id,
    'user'    => array(
        'name'      => 'mewantcookie',
        'fullName'  => 'Cookie Monster'
    ),
    'msg'     => 'Me wish there were expression for cookies like there is for apples. "A cookie a day make the doctor diagnose you with diabetes" not catchy.',
    'tstamp'  => '1238081389',
    'location'=> '41.12,-71.34',
    '_boost'  => 1.0
);
// First parameter is the id of document.
$tweetDocument = new \Elastica\Document($id, $tweet);

// Add tweet to type
$elasticaType->addDocument($tweetDocument);

// Refresh Index
$elasticaType->getIndex()->refresh();

我将每隔三十分钟运行一次cron来检查我的数据库中的项目,这些项目不仅具有“活动”标志,而且还没有“索引”标志,这意味着我需要将它们添加到指数。

问题

看到我有两种方法以两种不同的方式在elasticsearch和mysql之间同步数据,每种选项的优缺点是什么。是否有一个特定的用例定义使用一个而不是另一个?

3 个答案:

答案 0 :(得分:4)

我会使用 river方法,甚至认为内部构建解决方案可能更具可定制性。

一方面,jdbc-river插件是一个已经构建的插件,到目前为止它有大约20个贡献者。因此,你需要一个额外的团队来改进该工具,就像elasticsearch本身正在改进一样。

您只需要安装它,甚至不需要复杂的配置来在群集和关系数据库之间设置河流。

jdbc-river解决方案的另一个优点是您不需要处理内存管理。该插件可以在“拉模式”下作为河流运行,也可以在“推模式”下作为馈线运行。在馈送模式下,插件在单独的JVM中运行,并且可以连接到远程Elasticsearch集群。我个人更喜欢 river 模式,因为在这种情况下,Elasticsearch会处理索引和内存管理问题。

关系数据在内部转换为Elasticsearch文档的无模式索引模型的结构化JSON对象。

两端都是可扩展的。该插件可以并行获取来自不同RDBMS源的数据,而多线程批量模式可以在索引到Elasticsearch时确保高吞吐量。

此解决方案的一个缺点是它在完成索引时不会通知。作为解决方案,我建议您使用Count API来比较结果。

这条河的另一个缺点是它没有拉更新,它只是在插入删除上。我指的是sql动作UPDATE,INSERT和DELETE。

另一方面,您的解决方案可能带来一些您可能想要考虑的优点和缺点。

您的解决方案可高度自定义,因此您可以根据需要管理脚本。但考虑到任何可用的PHP Elasticsearch客户端的当前状态(Official Elasticseach-php ClientElasticaFOSElasticaBundle),甚至认为这些人在他们身上做得很好,它仍然被视为不是与用于河流的官方Elasticsearch JAVA API相比,非常成熟的API可以在该级别上使用。

您还应该考虑处理因内存丢失,管理,性能等问题而导致集群崩溃的所有错误。

Ex:我尝试使用Elastica API将我的数据从我的数据库推送到我的集群,在测试环境中配置32g RAM,每个运行@ 2.05GHz的8个核心,而不是进入很多细节。我花了5个小时将10M记录从数据库推送到集群。与河流一样,相同记录需要20分钟。当然可以围绕我的代码进行优化,但我认为它可以带给我更多的时间。

因此,只要您可以根据需要自定义河流,请使用它。如果河流不支持您想要做的事情,那么您可以坚持自己的解决方案。

NB:当然可能还有其他一点你可能想要考虑,但这个主题在这里讨论的时间很长。所以我选择了一些观点,我发现你必须注意到这一点。

答案 1 :(得分:2)

如果您忘记了需要将初始数据导入Elasticsearch,我会使用事件系统数据推送到Elasticsearch。从长远来看,这更有效。

当Elasticsearch需要索引某些内容时,您的应用程序完全知道 。要获取您的推文示例,在某个时刻,新的推文将进入您的应用程序(例如,用户编写一个)。这将触发newTweet事件。你有一个监听器来监听那个事件,并在调度这样的事件时将推文存储在Elasticsearch中。

如果您不想在Web请求中使用资源/时间来执行此操作(并且您肯定想要执行此操作),则侦听器可以将作业添加到队列中(例如GearmanBeanstalkd)。然后,您需要一个能够选择该工作并将该推文存储在Elasticsearch中的工作人员。

主要优势在于Elasticsearch能够更加实时地保持最新状态。你不需要一个会引入延迟的cronjob。您(大部分)一次处理一个文档。您不需要打扰SQL数据库来找出需要(重新)索引的内容。

另一个优点是,当事件/数据量失控时,您可以轻松扩展。当Elasticsearch本身需要更多功能时,请将服务器添加到群集中。当工人无法处理负载时,只需添加更多负载(并将它们放在专用机器上)。此外,您的网络服务器和SQL数据库也不会有任何感觉。

答案 2 :(得分:0)

我会使用河流方法。

河流的优势:

  • 已经建成。只需下载它,设置配置即可完成所有工作。
  • 测试。这条河已被几个人使用,因此错误得到了解决。
  • 定制。您可以设置运行之间的持续时间,定义用于获取新数据的sql语句等

您的解决方案的优势:

  • 高度可定制,您可以随意使用脚本。

您的解决方案的缺点:

  • 需要特殊标志
  • 容易出错(因为它未经过长时间测试)
  • ...

因此,只要您可以根据需要自定义河流,使用。如果河流不支持您想做的事情,那么您可以坚持自己的解决方案。