应用错误收集

美好的一天，

我已经彻底搜索了互联网（和这个网站），但没有找到（完整的）答案，但还没有能够实现我自己的解决方案。如果看起来我错过了已在Stackoverflow上发布的解决方案;我提前道歉。

我公司扫描所有收到的邮件。然后由ABBYY Finereader处理这些数据以获取OCR数据。所有这些文档都驻留在数据中心的NAS上，可通过WEBDAV连接访问。我想要的是索引所有这些文件（现在让我们只使用PDF）并使它们可搜索，并可通过Google搜索网站访问，其中可以点击结果在浏览器中打开相应的pdf文件以供查看/下载

这是问题所在; 我已经设置了SOLR / Tika并且可以索引pdf文件，搜索它并找到结果。索引扫描文档保存到的整个文件夹的最佳方法是什么？理想情况下，所有这些都在Linux服务器上运行，因此我可以挂载此目录。

如何查看此目录以获取新文件以便自动编入索引？

如果文件被移动到Root中的（新）目录（或被删除/重命名）并自动更新索引，我如何跟踪文件？

为用户创建前端的首选方法是什么？我可以自定义Solr / browse但我宁愿使用Rails来构建站点（仅仅因为我熟悉它）并且想要向Solr发送带有查询数据的请求并获得响应/数组返回到用户。

最后但并非最不重要; 如果有人对提供此功能的商业产品有一个很好的建议，我想听听。我无意重新发明轮子，但我的搜索并没有引起我的注意。

你一次问太多问题。所以，你得到一堆追逐指针，希望它对其他人也有用。

您无法“自定义Solr / browse” - Solr不安全直接暴露给用户应用程序
您可以将DataImportHandler（DIH）与嵌套实体一起使用FileListEntityProcessor（使用rootEntity = false）来获取文件，并使用TikaEntityProcessor内部来索引一堆文件。但是，这不会帮助您删除已删除的文件。也许你需要一个存根文件或类似的东西。
ManifoldCF使用Solr，它的文件系统适配器可能比DIH更聪明
Lucidworks是一个内置Solr的商业产品，可能还有文件系统适配器和大量其他可以查看的功能
Cloudera是一个商业产品，拥有大数据管道（包括文件内容）并使用Solr。重要的是，它还预先配置了Hue，它可能至少为您提供该版本的界面。

像文档搜索页面一样创建Google

1 个答案: