标签: solr web-crawler
当我们在SOLR中使用NCrawler时,有没有办法运行增量爬网和索引?我不希望我的抓取工具每次抓取时都会获取完整的数据。有没有办法让爬行变得无用?
提前致谢。
答案 0 :(得分:2)
为此,NCrawler中没有内置任何内容。您需要创建自己的处理来处理这个问题。但是,可扩展的IPipelineStep机制允许您围绕所需的爬网创建任何进程。例如,您可以将每个访问过的URL与页面内容的散列一起存储在数据库中,以确定页面何时更改并仅将更改的页面处理为索引。
IPipelineStep