我想知道是否可以配置Sitecore的Lucene搜索引擎来索引PDF或Word文档?我在本文档(http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)上查看了Sitecore支持网站,但它提到创建一个文件爬虫类,它告诉我,只有通过编写自定义代码才能实现这一点。如果我做需要编写自定义代码来执行此操作,我是否还需要一些API才能从PDF文档中提取文本内容?
答案 0 :(得分:3)
我最近不得不在我的一个项目上做类似的事情。 看看How to index Word 2003, 2007 and 2010 documents using Lucene.NET。
我最终创建了一个处理MS Office文档(XP,2003,2007和2010格式)和PDF文档的自定义索引器:
IFilter
(假设您使用的是Windows Server 2003或更新版本)注意:不要在Adobe PDF IFilter上浪费时间:它无法读取有效的PDF文件,并且很多更慢。 Foxit IFilter旨在利用多核CPU,并在大型文档上表现更好。