我必须在PDF文件中搜索共享托管环境中即将推出的(ASP.NET MVC)项目。什么是最好的解决方案?任何第三方产品?
答案 0 :(得分:1)
Lucene是一个受欢迎的选择。有关搜索pdfs的信息,请参阅Lucene FAQ。
答案 1 :(得分:0)
Lucene是一个不错的选择 - 对于ASP.NET,使用Lucene.NET是最好的选择。 Lucene只是一个索引引擎,这意味着你必须提供PDF中的文本。如果您有权访问Web服务器,则可以为此安装IFilter(我建议使用Foxit's PDF过滤器)。否则,您必须获取一些代码才能在您的网站上使用,以解析和过滤PDF。
答案 2 :(得分:0)
Docotic.Pdf library可以帮助完成此类任务。
该库可用于extract text(带或不带格式化)。提取的文本可用于创建索引。如果您只想知道PDF文件是否包含给定文本,您甚至可以使用String.IndexOf
方法。
库也可以retrieve a collection of words及其PDF格式的边界矩形。如果您需要知道文件中文本的确切位置,这可能很有用。
免责声明:我为图书馆的供应商工作。