使用Rails提供可搜索的PDF

时间:2011-10-17 21:11:24

标签: ruby-on-rails pdf solr sunspot

开始处理项目,存档数以千计的PDF“报告”。研究使其可供搜索的替代方案。希望用户能够输入搜索词并显示包含所述搜索词的报告列表,他们可以在浏览器中单击并查看。很简单。

Solr似乎是我在PDF支持下可以找到的最受欢迎的选项......但是我们不了解Java ...所以,寻找如何使这个工作的例子(或只是建议)使用Rails / Sunspot。在粗略概述后,它看起来相当复杂(需要深奥的Tika,Solr Cell,Sunspot和Solr本身的组合。虽然也许(读:希望)我错了?!?)。

Nutshell:我们想将我们使用的任何搜索引擎指向包含PDF的文件夹,让它为它们编制索引。然后在Rails应用程序中,我们可以提供一个搜索对话框&管理查询&结果。

选项?难度?建议吗?提示?

2 个答案:

答案 0 :(得分:1)

以下是一篇博文:How to index file contents like pdf, doc, etc.. with Solr, Sunspot, Paperclip, S3 and Rails 3,其中显示了一些非常详细的步骤来设置这一切。

答案 1 :(得分:0)

Lucid Imagination似乎在一个很好的教程中涵盖了这个主题:http://www.lucidimagination.com/blog/2009/02/17/acts_as_solr_cell/