如何使用solr和nutch自动索引数据?

时间:2015-05-28 06:08:36

标签: apache solr nutch solrj moss2007enterprisesearch

我希望在将文档或网站提供给apache solr时自动为其编制索引。我们怎样才能做到这一点?我已经看到了使用需要通过php脚本调用的CRON作业的示例,但它们在解释中并不十分清楚。使用java api SolrJ,有没有什么方法可以自动索引数据,而不需要手动执行?

2 个答案:

答案 0 :(得分:0)

您可以编写调度程序并调用正在进行索引/重建索引的solrJ代码。

有关编写调度程序的信息,请参阅以下链接

http://www.mkyong.com/java/how-to-run-a-task-periodically-in-java/

http://archive.oreilly.com/pub/a/java/archive/quartz.html

答案 1 :(得分:0)

如果您使用的是Apache Nutch,则必须使用Nutch solr-index插件。使用此插件,您可以在Nutch抓取Web文档后立即对其进行索引。但主要的问题是你如何安排Nutch定期开始。

据我所知,你必须为此目的使用调度程序。我确实知道一个名为Nutch-base的旧Nutch项目,该项目使用Apache Quartz来安排Nutch工作。您可以从以下链接找到Nutch-base的源代码:

https://github.com/mathieuravaux/nutchbase

如果你考虑这个项目,有一个名为admin-scheduling的插件。虽然它是为Nutch和旧版本实现的,但它可能是开发Nutch调度程序插件的一个很好的起点。

值得一提的是,如果您要定期抓取网站并获取新到达的链接,可以使用this tutorial