很抱歉,如果这个问题可能过于笼统。如果有文档,我会很高兴与文档的良好链接。谷歌不会帮我找到它们。
我需要了解如何从Nutch抓取的网站中提取方面,然后由Solr索引。在网站上,网页包含元标记,例如<meta name="price" content="123.45"/>
或<meta name="categories" content="category1, category2"/>
。我可以告诉Nutch提取那些和Solr将它们视为方面吗?
在上面的示例中,我想手动指定元名称“categories”将被视为构面,但内容应该动态地用作类别。
有意义吗?是否可以使用Nutch和Solr,还是应该重新考虑使用它?
答案 0 :(得分:0)
我没有使用Nutch(我使用Heritrix),但在一天结束时,Nutch需要提取“meta”标签值并在Solr中索引它们(使用SolrJ for ex),使用不同的solr字段“价格“,”类别“等
然后你做
获取每个类别的方面。这是一个关于方面的页面:
答案 1 :(得分:0)
其中一个选项是将nutch与metadata plugin
一起使用虽然它是作为一个例子给出的,但它非常包含在发行版中。 假设您了解使用nutch配置和爬网数据的其他过程 在建立索引之前,您需要配置nutch以使用这样的元数据插件。 编辑conf / nutch-site.xml
<property>
<name>plugin.includes</name>
<value>urlmeta|(rest of the plugins)</value>
</property>
需要编制索引的元数据标签(如价格)可以作为另一个属性提供
<property>
<name>urlmeta.tags</name>
<value>price</value>
</property>$
现在,您可以运行nutch crawl命令。使用solr进行爬网和索引后,您应该在索引中看到一个字段价格。可以通过在查询中添加facet.field来使用构面搜索。
以下是一些感兴趣的链接。