我有1000多个PDF搜索。
我需要一些插件或应用程序来索引它,例如(http)joomla.natemaxfield.com
答案 0 :(得分:2)
我们使用Swish-e索引我们的网站,其中包括数千个PDF,Word文件甚至WordPerfect文件。它很棒。它是免费的,开源的,并且与PHP完美集成。
从他们的主页:
Swish-e快速,灵活,免费 用于索引的开源系统 网页或其他的集合 文件。 Swish-e非常适合 收集一百万份文件或 小。使用GNOME™libxml2 解析器和一组过滤器, Swish-e可以索引纯文本,电子邮件, PDF,HTML,XML,Microsoft® Word / PowerPoint / Excel和几乎 任何可以转换为XML的文件 或HTML文本。 Swish-e也经常出现 用来补充数据库 MySQL®DBMS可实现非常快速的全文 搜索。
答案 1 :(得分:1)
看看PDFMiner。它可以很容易地做你想要的。此外,请搜索类似的问题,因为这可能是:Python module for converting PDF to text