我正在寻找一种方法来搜索包含Office或PDF格式的大约1TB文档的文件系统。 Lucene.Net几乎是实现这一目标的最佳方式吗?我也听说过dtSearch,并且想知道是否有人使用过该工具并取得了成功?还有其他工具可以完成这项工作吗?
我正在寻找使用.Net的工具,并且可以在Windows机箱上使用。
如果Lucene.Net是最好的方式 - 有没有人有任何有助于我入门的好教程?我用谷歌搜索过,大多数回来的结果似乎都不是最佳做法,也不能直接解决我目前的状况。
如果已经问过这个问题我会道歉,如果有人愿意请我指出一个很棒的类似帖子。
答案 0 :(得分:4)
查看Search Server Express。这是结合到SharePoint中的免费搜索版本。
Lucene / Solr是一个选择,但你的问题不是搜索引擎,你需要一个可以读取和解析pdf的系统。 Lucene本身只是一个引擎,但你可以添加Solr来帮助你解析内容。
使用Search Server可以让您快速运行,并且Search API具有良好的文档记录且易于使用。
答案 1 :(得分:1)
我已经使用了Everything而且我非常喜欢它,它是一个应用程序,但它也有一个包含其搜索API的C / C#/ Clarion SDK。
有一件事,它不会索引文件的内容,只是索引文件名。这使得创建索引并访问它的速度非常快
答案 2 :(得分:1)
查找searchblox - 它是在Lucene上面构建的全功能爬虫/索引器,并且100%免费。