如何使用lucene.net索引文件夹

时间:2010-12-15 13:09:08

标签: c# asp.net vb.net lucene lucene.net

我正在尝试使用lucene.net在asp.net中开发搜索引擎。我通过许多教程和页面来获得适当的结果,但我不能。 实际上我有一个包含一些文件的文件夹(doc,ppt,pdf,excel等...),我想在该文件夹中仅搜索内容,如果在该文件夹中找不到结果,则要求用户在网上搜索。 / p>

例如我有一个包含数千个文件的文件夹@ C:\ test 如果用户搜索“miller”,那么它应该搜索每个文档。如果找到结果,那么它应该显示结果

搜索文本文件no of occurences 米勒C:\ test \ 1 \ file.doc 5 米勒C:\ test \ 1 \ 11 \ new.doc 2

请帮助我,我没有得到适当的结果。

1 个答案:

答案 0 :(得分:1)

Lucene / Lucene.NET只是一个索引引擎,您仍然需要从自己想要支持的文件类型中提取文本 - 在Windows中,您可以将IFilter接口用于许多文件类型,如果如果您安装了Acrobat Reader 7+,则应该内置支持IFilter for PDF文件。至于索引部分本身有很多很多样本。

另见此主题What's a good method for extracting text from a PDF using C# or classic ASP (VBScript)?