在PDF中搜索,索引吗?

时间:2011-03-09 21:09:48

标签: php python pdf

我有1000多个PDF搜索。

我需要一些插件或应用程序来索引它,例如(http)joomla.natemaxfield.com

2 个答案:

答案 0 :(得分:2)

我们使用Swish-e索引我们的网站,其中包括数千个PDF,Word文件甚至WordPerfect文件。它很棒。它是免费的,开源的,并且与PHP完美集成。

http://swish-e.org/index.html

从他们的主页:

  

Swish-e快速,灵活,免费   用于索引的开源系统   网页或其他的集合   文件。 Swish-e非常适合   收集一百万份文件或   小。使用GNOME™libxml2   解析器和一组过滤器,   Swish-e可以索引纯文本,电子邮件,   PDF,HTML,XML,Microsoft®   Word / PowerPoint / Excel和几乎   任何可以转换为XML的文件   或HTML文本。 Swish-e也经常出现   用来补充数据库   MySQL®DBMS可实现非常快速的全文   搜索。

答案 1 :(得分:1)

看看PDFMiner。它可以很容易地做你想要的。此外,请搜索类似的问题,因为这可能是:Python module for converting PDF to text