solr - Apache Nutch Crawl动态产品

Apache Nutch Crawl动态产品

时间：2013-09-14 13:01:56

标签： solr nutch web-crawler sitemap.xml

目前我们使用Apache Solr作为搜索引擎，使用Apache Nutch作为Crawler。现在我们已经创建了一个站点站点，其中包含动态生成的产品。

由于当前设置将搜索内容字段中的内容，因此每当我们搜索动态产品时，它都不会进入搜索结果。

您能否指导我如何抓取页面上的动态产品并将其编入索引到Apache Solr？我们可以使用Sitemap.xml执行此操作，如果是，那么请建议如何使用？

谢谢！

1 个答案:

答案 0 :(得分：0)

一种可能的解决方案是：

步骤1）将每个动态产品的描述放在自己的页面中。例如http://domain/product?id=xxx（或更友好的网址，例如http://domain/product-x）。

步骤2）您需要一个或多个页面来列出这些产品的网址。您提到的sitemap.xml是一个选择，但一个简单的html页面也足够了。因此，例如，您可以动态生成名为products_list的页面，其中包含以下条目：<a href="http://domain/product?id=xxx">Product x</a>。

步骤3）您应该将products_list页面的url添加到您的nutch种子文件中，或者在已经抓取的一个页面中包含指向它的链接。