Apache Nutch Crawl动态产品

时间:2013-09-14 13:01:56

标签: solr nutch web-crawler sitemap.xml

目前我们使用Apache Solr作为搜索引擎,使用Apache Nutch作为Crawler。现在我们已经创建了一个站点站点,其中包含动态生成的产品。

由于当前设置将搜索内容字段中的内容,因此每当我们搜索动态产品时,它都不会进入搜索结果。

您能否指导我如何抓取页面上的动态产品并将其编入索引到Apache Solr?我们可以使用Sitemap.xml执行此操作,如果是,那么请建议如何使用?

谢谢!

1 个答案:

答案 0 :(得分:0)

一种可能的解决方案是:

步骤1)将每个动态产品的描述放在自己的页面中。例如http://domain/product?id=xxx(或更友好的网址,例如http://domain/product-x)。

步骤2)您需要一个或多个页面来列出这些产品的网址。您提到的sitemap.xml是一个选择,但一个简单的html页面也足够了。因此,例如,您可以动态生成名为products_list的页面,其中包含以下条目:<a href="http://domain/product?id=xxx">Product x</a>

步骤3)您应该将products_list页面的url添加到您的nutch种子文件中,或者在已经抓取的一个页面中包含指向它的链接。