Sitecore文本搜索PDF或Word文档

时间:2011-07-05 14:28:46

标签: c# asp.net sitecore sitecore6 sitecore-media-library

我想知道是否可以配置Sitecore的Lucene搜索引擎来索引PDF或Word文档?我在本文档(http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)上查看了Sitecore支持网站,但它提到创建一个文件爬虫类,它告诉我,只有通过编写自定义代码才能实现这一点。如果我需要编写自定义代码来执行此操作,我是否还需要一些API才能从PDF文档中提取文本内容?

1 个答案:

答案 0 :(得分:3)

我最近不得不在我的一个项目上做类似的事情。 看看How to index Word 2003, 2007 and 2010 documents using Lucene.NET

我最终创建了一个处理MS Office文档(XP,2003,2007和2010格式)和PDF文档的自定义索引器:

  • 对于索引XP-2003 MS Office文档,您可以使用操作系统内置的IFilter(假设您使用的是Windows Server 2003或更新版本)
  • 要索引2007-2010 MS Office文档,您需要安装Microsoft Office 2010 Filter Packs
  • 为了索引PDF文档,我强烈建议您使用Foxit PDF IFilter。它不是免费的,但比Adobe PDF IFilter做得好得多。

注意:不要在Adobe PDF IFilter上浪费时间:它无法读取有效的PDF文件,并且很多更慢。 Foxit IFilter旨在利用多核CPU,并在大型文档上表现更好。