应用错误收集

据我所知，Kentico 10源代码，Kentico SmartSearch使用的爬虫是完全专有的。它没有使用任何第三方库。

使用=下载页面内容。完整内容将作为字符串反馈到SmartSearch索引器中。之后，它通过文本提取并被送到Lucene进行索引。

让Kentico SmartSearch使用外部抓取工具并不容易。我们通常远离爬虫，因为与直接从数据库中提取数据的标准索引相比，执行起来相当昂贵。

Kentico支持executing some scheduled tasks in a Windows service但不支持搜索任务。

请注意，Kentico SmartSearch实际上并未通过发现链接来抓取网站。它使用内容树来确定索引所需的内容。如果您要为其他内容编制索引，例如从您集成的系统中编制索引，则需要按照here所述实现自定义搜索服务。

有一件事可以让外部进程抓取您要编制索引的任何内容，并将原始HTML内容放入存储中。然后编写一个自定义SmartSearch索引，从存储中提取数据，以便在Kentico中进行索引。如果您正在为Kentico管理的内容编制索引，则可以通过挂钩文档事件将其提升到新的水平。这应该允许您仅在页面更新时抓取页面。

Kentico使用Lucene .NET。对于独立项目来说，它是一个很好的解决方案。我用它来为Azure中托管的自定义Web API提供支持。

麦克

Lucene使用Nutch http://nutch.apache.org/这是一个开源网络爬虫来索引网页内容。它是lucene提供的整个框架的一部分。

Kentico 10使用的Web爬虫引擎

3 个答案: