应用错误收集

关于Drupal 7配置apache Solr和apache Nutch

时间：2016-11-07 07:30:12

标签： apache drupal solr drupal-7 nutch

我已经安装了drupal 7和apache solr搜索模块并使用Apache Solr进行了配置（solr版本：4.10.4）。内容已经从drupal索引到apache solr并且搜索也工作正常。我需要将Nutch（Apache Nutch Version：1.12）web爬虫配置为apache solr和drupal 7并从特定URL获取详细信息（for例如：http://www.w3schools.com）并且需要在drupal中搜索内容。我的问题是如何配置所有三个solr nutch和drupal 7.可以为任何人提出解决方案吗？

2 个答案:

答案 0 :(得分：0)

好的......这是我丑陋的解决方案，可能适合你正在做的事情。

您可以在节点（或页面）中使用php字段（带有Display Suite的自定义字段），它基本上使用CURL读取整页，然后在那里打印内容。此字段应仅在您的节点显示中将显示无人（Apache Solr除外）。

最后在Solr配置中（老实说，我不记得它是如何工作的）你可以选择要编入索引的页面的哪个显示，或者要编入索引的字段，这将是你的整页。

如果所有这些都有效，则无需将Nutch与Solr和Drupal集成。

祝你好运：）

PD：如果您有疑问，请问。

答案 1 :(得分：0)

我的2美分：看起来你想要聚合Drupal网站（你的节点）和你网站上托管的外部内容的内容，而不是Drupal内容吗？如果是这种情况，那么您不需要Nutch和Drupal之间的任何集成，只需索引同一个Solr核心/集合中的所有内容。当然，您需要确保Solr架构兼容（Nutch有自己的元数据与Drupal节点不同）。此外，如果您在单独的核心/集合中进行索引，则可以使用shards参数来查询多个核心并仍然只获得一个结果集，但是使用此方法，您需要保持并关注结果的相关性（文档的顺序），并且还要关注Drupal Solr模块用于显示结果的字段，因此最终您仍然需要使两个核心的模式兼容度。