未在sitecore lucene搜索索引中编制索引的组件

时间:2015-05-20 07:38:40

标签: indexing lucene sitecore lucene.net sitecore7

我在配置和配置中配置了lucene搜索索引使用 lukeall 工具测试索引,它搜索定义模板的所有字段,但页面上的内容使用另一个外部组件,该组件未被搜索,但页面字段中的数据是可搜索的。 有什么方法可以搜索类似html搜索的内容,以便页面上的所有数据都可以编入索引。

谢谢你们。

2 个答案:

答案 0 :(得分:3)

这是一个常见的要求。

此截屏视频概述了一种方法,即爬行程序遍历每个页面的组件(大约38分钟后)。

http://www.techphoria414.com/Blog/2012/May/Sitecore_Page_Editor_Unleashed

上面的示例使用旧的高级数据库抓取工具,但原理是合理的。

另一种常见方法是在索引中创建一个计算字段,该字段会导致应用程序向页面请求,因此可以删除HTML。

https://github.com/hermanussen/sitecore-html-crawler

我的偏好是第二种选择,因为它更准确

答案 1 :(得分:0)

或者,如果您希望已抓取的内容完全分开,则可以转到https://github.com/efocus-nl/sitecorewebsearch

它还为您提供了一些额外的选项,例如跳过页面的部分(例如菜单,页脚,标题)