我在配置和配置中配置了lucene搜索索引使用 lukeall 工具测试索引,它搜索定义模板的所有字段,但页面上的内容使用另一个外部组件,该组件未被搜索,但页面字段中的数据是可搜索的。 有什么方法可以搜索类似html搜索的内容,以便页面上的所有数据都可以编入索引。
谢谢你们。
答案 0 :(得分:3)
这是一个常见的要求。
此截屏视频概述了一种方法,即爬行程序遍历每个页面的组件(大约38分钟后)。
http://www.techphoria414.com/Blog/2012/May/Sitecore_Page_Editor_Unleashed
上面的示例使用旧的高级数据库抓取工具,但原理是合理的。
另一种常见方法是在索引中创建一个计算字段,该字段会导致应用程序向页面请求,因此可以删除HTML。
https://github.com/hermanussen/sitecore-html-crawler
我的偏好是第二种选择,因为它更准确
答案 1 :(得分:0)
或者,如果您希望已抓取的内容完全分开,则可以转到https://github.com/efocus-nl/sitecorewebsearch
它还为您提供了一些额外的选项,例如跳过页面的部分(例如菜单,页脚,标题)