Question

很抱歉，如果这个问题可能过于笼统。如果有文档，我会很高兴与文档的良好链接。谷歌不会帮我找到它们。

我需要了解如何从Nutch抓取的网站中提取方面，然后由Solr索引。在网站上，网页包含元标记，例如<meta name="price" content="123.45"/>或<meta name="categories" content="category1, category2"/>。我可以告诉Nutch提取那些和Solr将它们视为方面吗？

在上面的示例中，我想手动指定元名称“categories”将被视为构面，但内容应该动态地用作类别。

有意义吗？是否可以使用Nutch和Solr，还是应该重新考虑使用它？

Answer 1

我没有使用Nutch（我使用Heritrix），但在一天结束时，Nutch需要提取“meta”标签值并在Solr中索引它们（使用SolrJ for ex），使用不同的solr字段“价格“，”类别“等

然后你做

http://localhost:8080/solr/myrep/select?q=mobile&facet=true&facet.limit=10&facet.field=categories

获取每个类别的方面。这是一个关于方面的页面：

http://wiki.apache.org/solr/SolrFacetingOverview

Answer 2

其中一个选项是将nutch与metadata plugin

一起使用

虽然它是作为一个例子给出的，但它非常包含在发行版中。假设您了解使用nutch配置和爬网数据的其他过程在建立索引之前，您需要配置nutch以使用这样的元数据插件。编辑conf / nutch-site.xml

      <property>
         <name>plugin.includes</name>
         <value>urlmeta|(rest of the plugins)</value>
     </property>

需要编制索引的元数据标签（如价格）可以作为另一个属性提供

    <property>
       <name>urlmeta.tags</name>
         <value>price</value>
    </property>$

现在，您可以运行nutch crawl命令。使用solr进行爬网和索引后，您应该在索引中看到一个字段价格。可以通过在查询中添加facet.field来使用构面搜索。

以下是一些感兴趣的链接。

使用Solr索引nutch数据链接：Link
有关Solr faceting查询的帮助链接：Link

Solr和Nutch - 如何控制Facets？

2 个答案: