像文档搜索页面一样创建Google

时间:2014-10-22 11:37:15

标签: pdf solr

美好的一天,

我已经彻底搜索了互联网(和这个网站),但没有找到(完整的)答案,但还没有能够实现我自己的解决方案。 如果看起来我错过了已在Stackoverflow上发布的解决方案;我提前道歉。

我公司扫描所有收到的邮件。 然后由ABBYY Finereader处理这些数据以获取OCR数据。 所有这些文档都驻留在数据中心的NAS上,可通过WEBDAV连接访问。我想要的是索引所有这些文件(现在让我们只使用PDF)并使它们可搜索,并可通过Google搜索网站访问,其中可以点击结果在浏览器中打开相应的pdf文件以供查看/下载

这是问题所在; 我已经设置了SOLR / Tika并且可以索引pdf文件,搜索它并找到结果。 索引扫描文档保存到的整个文件夹的最佳方法是什么? 理想情况下,所有这些都在Linux服务器上运行,因此我可以挂载此目录。

如何查看此目录以获取新文件以便自动编入索引?

如果文件被移动到Root中的(新)目录(或被删除/重命名)并自动更新索引,我如何跟踪文件?

为用户创建前端的首选方法是什么?我可以自定义Solr / browse但我宁愿使用Rails来构建站点(仅仅因为我熟悉它)并且想要向Solr发送带有查询数据的请求并获得响应/数组返回到用户。

最后但并非最不重要; 如果有人对提供此功能的商业产品有一个很好的建议,我想听听。我无意重新发明轮子,但我的搜索并没有引起我的注意。

1 个答案:

答案 0 :(得分:0)

你一次问太多问题。所以,你得到一堆追逐指针,希望它对其他人也有用。

  1. 您无法“自定义Solr / browse” - Solr不安全直接暴露给用户应用程序
  2. 您可以将DataImportHandler(DIH)与嵌套实体一起使用FileListEntityProcessor(使用rootEntity = false)来获取文件,并使用TikaEntityProcessor内部来索引一堆文件。但是,这不会帮助您删除已删除的文件。也许你需要一个存根文件或类似的东西。
  3. ManifoldCF使用Solr,它的文件系统适配器可能比DIH更聪明
  4. Lucidworks是一个内置Solr的商业产品,可能还有文件系统适配器和大量其他可以查看的功能
  5. Cloudera是一个商业产品,拥有大数据管道(包括文件内容)并使用Solr。重要的是,它还预先配置了Hue,它可能至少为您提供该版本的界面。