在索引到solr之前预处理数据

时间:2015-09-09 12:29:26

标签: mysql hadoop solr lucene

我正在使用索引大小 2000万数据的SOLR。我使用 DataimportHandler 将数据索引到SOLR中。现在是一天由于mysql查询变得非常沉重,所以需要花费大量时间来完成全索引。请提供一些技巧来加快索引过程。

我在想像 Hadoop 等其他数据存储中的预处理数据,然后从那里开始索引。请建议哪个数据存储会好。如果我想存储预处理数据。

我使用MYSQL作为主数据库。

Delta持续时间最近一小时约为10万次。

1 个答案:

答案 0 :(得分:0)

首先检查您是否有正确的索引,并且您的查询使用相同的索引。

或者我建议在当前数据库上进行分区。 即在MySQL上使用分区。

它可以帮助您更快地为Solr检索数据。

通过分区,它可以帮助您在应用程序的其他部分更快地获取数据。

这是在MySQL上实现分区的链接。

https://dev.mysql.com/doc/refman/5.1/en/partitioning-overview.html https://dev.mysql.com/doc/refman/5.1/en/partitioning.html

其他解决方法是以CSV格式导出数据并将其提供给Solr。

检查这对您有何帮助。正如有人说这种机制对他有利。