我如何使用Lucene.Net索引PDF文件?

时间:2009-08-14 02:19:54

标签: c# lucene.net implementation

我正在寻找一些示例代码,演示如何使用Lucene.Net和C#索引PDF文档。谷歌出现了一些,但没有一个,我觉得有帮助。

2 个答案:

答案 0 :(得分:5)

根据我的理解,Lucene仅限于创建索引并搜索该索引。由应用程序来处理打开文件并提取索引的内容。因此,如果您要搜索PDF文档,您将需要使用iTextSharp之类的东西来打开文件,请拉出内容,然后将其传递给Lucene进行索引。在Dimecasts.net网站上有一些很好的使用Lucene的例子。

答案 1 :(得分:2)

StringBuilder stringBuilder = new StringBuilder();

PdfReader pdfReader = new PdfReader(byte[] of the .pdf);

for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
    stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " ");
}

(使用iTextSharp)

其余部分并未简洁明了。

我网站上的产品演示中有代码显示了如何使用lucene.net代码,但在此处发布时间有点长。

以下是与我的产品相关的代码:https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs用户名/密码:公开