Solr和Nutch - 如何控制Facets?

时间:2011-08-04 07:53:04

标签: solr nutch facets

很抱歉,如果这个问题可能过于笼统。如果有文档,我会很高兴与文档的良好链接。谷歌不会帮我找到它们。

我需要了解如何从Nutch抓取的网站中提取方面,然后由Solr索引。在网站上,网页包含元标记,例如<meta name="price" content="123.45"/><meta name="categories" content="category1, category2"/>。我可以告诉Nutch提取那些和Solr将它们视为方面吗?

在上面的示例中,我想手动指定元名称“categories”将被视为构面,但内容应该动态地用作类别。

有意义吗?是否可以使用Nutch和Solr,还是应该重新考虑使用它?

2 个答案:

答案 0 :(得分:0)

我没有使用Nutch(我使用Heritrix),但在一天结束时,Nutch需要提取“meta”标签值并在Solr中索引它们(使用SolrJ for ex),使用不同的solr字段“价格“,”类别“等

然后你做

  • http://localhost:8080/solr/myrep/select?q=mobile&facet=true&facet.limit=10&facet.field=categories

    获取每个类别的方面。这是一个关于方面的页面:

  • http://wiki.apache.org/solr/SolrFacetingOverview

  • 答案 1 :(得分:0)

    其中一个选项是将nutch与metadata plugin

    一起使用

    虽然它是作为一个例子给出的,但它非常包含在发行版中。 假设您了解使用nutch配置和爬网数据的其他过程 在建立索引之前,您需要配置nutch以使用这样的元数据插件。 编辑conf / nutch-site.xml

          <property>
             <name>plugin.includes</name>
             <value>urlmeta|(rest of the plugins)</value>
         </property>
    

    需要编制索引的元数据标签(如价格)可以作为另一个属性提供

        <property>
           <name>urlmeta.tags</name>
             <value>price</value>
        </property>$
    

    现在,您可以运行nutch crawl命令。使用solr进行爬网和索引后,您应该在索引中看到一个字段价格。可以通过在查询中添加facet.field来使用构面搜索。

    以下是一些感兴趣的链接。

    1. 使用Solr索引nutch数据链接:Link
    2. 有关Solr faceting查询的帮助链接:Link