应用错误收集

Sitecore文本搜索PDF或Word文档

时间：2011-07-05 14:28:46

标签： c# asp.net sitecore sitecore6 sitecore-media-library

我想知道是否可以配置Sitecore的Lucene搜索引擎来索引PDF或Word文档？我在本文档（http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf）上查看了Sitecore支持网站，但它提到创建一个文件爬虫类，它告诉我，只有通过编写自定义代码才能实现这一点。如果我做需要编写自定义代码来执行此操作，我是否还需要一些API才能从PDF文档中提取文本内容？

1 个答案:

答案 0 :(得分：3)

我最近不得不在我的一个项目上做类似的事情。看看How to index Word 2003, 2007 and 2010 documents using Lucene.NET。

我最终创建了一个处理MS Office文档（XP，2003,2007和2010格式）和PDF文档的自定义索引器：

对于索引XP-2003 MS Office文档，您可以使用操作系统内置的IFilter（假设您使用的是Windows Server 2003或更新版本）
要索引2007-2010 MS Office文档，您需要安装Microsoft Office 2010 Filter Packs
为了索引PDF文档，我强烈建议您使用Foxit PDF IFilter。它不是免费的，但比Adobe PDF IFilter做得好得多。

注意：不要在Adobe PDF IFilter上浪费时间：它无法读取有效的PDF文件，并且很多更慢。 Foxit IFilter旨在利用多核CPU，并在大型文档上表现更好。