目前我们使用Apache Solr作为搜索引擎,使用Apache Nutch作为Crawler。现在我们已经创建了一个站点站点,其中包含动态生成的产品。
由于当前设置将搜索内容字段中的内容,因此每当我们搜索动态产品时,它都不会进入搜索结果。
您能否指导我如何抓取页面上的动态产品并将其编入索引到Apache Solr?我们可以使用Sitemap.xml执行此操作,如果是,那么请建议如何使用?
谢谢!
答案 0 :(得分:0)
一种可能的解决方案是:
步骤1)将每个动态产品的描述放在自己的页面中。例如http://domain/product?id=xxx
(或更友好的网址,例如http://domain/product-x
)。
步骤2)您需要一个或多个页面来列出这些产品的网址。您提到的sitemap.xml是一个选择,但一个简单的html页面也足够了。因此,例如,您可以动态生成名为products_list的页面,其中包含以下条目:<a href="http://domain/product?id=xxx">Product x</a>
。
步骤3)您应该将products_list页面的url添加到您的nutch种子文件中,或者在已经抓取的一个页面中包含指向它的链接。