开始处理项目,存档数以千计的PDF“报告”。研究使其可供搜索的替代方案。希望用户能够输入搜索词并显示包含所述搜索词的报告列表,他们可以在浏览器中单击并查看。很简单。
Solr似乎是我在PDF支持下可以找到的最受欢迎的选项......但是我们不了解Java ...所以,寻找如何使这个工作的例子(或只是建议)使用Rails / Sunspot。在粗略概述后,它看起来相当复杂(需要深奥的Tika,Solr Cell,Sunspot和Solr本身的组合。虽然也许(读:希望)我错了?!?)。
Nutshell:我们想将我们使用的任何搜索引擎指向包含PDF的文件夹,让它为它们编制索引。然后在Rails应用程序中,我们可以提供一个搜索对话框&管理查询&结果。
选项?难度?建议吗?提示?
答案 0 :(得分:1)
以下是一篇博文:How to index file contents like pdf, doc, etc.. with Solr, Sunspot, Paperclip, S3 and Rails 3,其中显示了一些非常详细的步骤来设置这一切。
答案 1 :(得分:0)
Lucid Imagination似乎在一个很好的教程中涵盖了这个主题:http://www.lucidimagination.com/blog/2009/02/17/acts_as_solr_cell/