Kentico 10使用的Web爬虫引擎

时间:2017-08-31 16:14:44

标签: web-crawler kentico

根据文档Configuring Page Crawler Indexes,是否有更多关于Kentico 10使用的网络爬虫技术/引擎的信息?

我之所以提出这个问题是因为我想将其用于可以放在Kentico之外的自定义抓取工具,并且仍然允许它与Kentico平台具有内在的兼容性。

3 个答案:

答案 0 :(得分:2)

据我所知,Kentico 10源代码,Kentico SmartSearch使用的爬虫是完全专有的。它没有使用任何第三方库。

使用=下载页面内容。完整内容将作为字符串反馈到SmartSearch索引器中。之后,它通过文本提取并被送到Lucene进行索引。

让Kentico SmartSearch使用外部抓取工具并不容易。我们通常远离爬虫,因为与直接从数据库中提取数据的标准索引相比,执行起来相当昂贵。

Kentico支持executing some scheduled tasks in a Windows service但不支持搜索任务。

请注意,Kentico SmartSearch实际上并未通过发现链接来抓取网站。它使用内容树来确定索引所需的内容。如果您要为其他内容编制索引,例如从您集成的系统中编制索引,则需要按照here所述实现自定义搜索服务。

有一件事可以让外部进程抓取您要编制索引的任何内容,并将原始HTML内容放入存储中。然后编写一个自定义SmartSearch索引,从存储中提取数据,以便在Kentico中进行索引。如果您正在为Kentico管理的内容编制索引,则可以通过挂钩文档事件将其提升到新的水平。这应该允许您仅在页面更新时抓取页面。

答案 1 :(得分:-1)

Kentico使用Lucene .NET。对于独立项目来说,它是一个很好的解决方案。我用它来为Azure中托管的自定义Web API提供支持。

麦克

答案 2 :(得分:-1)

Lucene使用Nutch http://nutch.apache.org/这是一个开源网络爬虫来索引网页内容。它是lucene提供的整个框架的一部分。