我已经安装了drupal 7和apache solr搜索模块并使用Apache Solr进行了配置(solr版本:4.10.4)。内容已经从drupal索引到apache solr并且搜索也工作正常。我需要将Nutch(Apache Nutch Version:1.12)web爬虫配置为apache solr和drupal 7并从特定URL获取详细信息(for例如:http://www.w3schools.com)并且需要在drupal中搜索内容。我的问题是如何配置所有三个solr nutch和drupal 7.可以为任何人提出解决方案吗?
答案 0 :(得分:0)
好的......这是我丑陋的解决方案,可能适合你正在做的事情。
您可以在节点(或页面)中使用php字段(带有Display Suite的自定义字段),它基本上使用CURL读取整页,然后在那里打印内容。此字段应仅在您的节点显示中将显示无人(Apache Solr除外)。
最后在Solr配置中(老实说,我不记得它是如何工作的)你可以选择要编入索引的页面的哪个显示,或者要编入索引的字段,这将是你的整页。
如果所有这些都有效,则无需将Nutch与Solr和Drupal集成。
祝你好运:) PD:如果您有疑问,请问。答案 1 :(得分:0)
我的2美分:看起来你想要聚合Drupal网站(你的节点)和你网站上托管的外部内容的内容,而不是Drupal内容吗?如果是这种情况,那么您不需要Nutch和Drupal之间的任何集成,只需索引同一个Solr核心/集合中的所有内容。当然,您需要确保Solr架构兼容(Nutch有自己的元数据与Drupal节点不同)。此外,如果您在单独的核心/集合中进行索引,则可以使用shards
参数来查询多个核心并仍然只获得一个结果集,但是使用此方法,您需要保持并关注结果的相关性(文档的顺序),并且还要关注Drupal Solr模块用于显示结果的字段,因此最终您仍然需要使两个核心的模式兼容度。