美好的一天,
我已经彻底搜索了互联网(和这个网站),但没有找到(完整的)答案,但还没有能够实现我自己的解决方案。 如果看起来我错过了已在Stackoverflow上发布的解决方案;我提前道歉。
我公司扫描所有收到的邮件。 然后由ABBYY Finereader处理这些数据以获取OCR数据。 所有这些文档都驻留在数据中心的NAS上,可通过WEBDAV连接访问。我想要的是索引所有这些文件(现在让我们只使用PDF)并使它们可搜索,并可通过Google搜索网站访问,其中可以点击结果在浏览器中打开相应的pdf文件以供查看/下载
这是问题所在; 我已经设置了SOLR / Tika并且可以索引pdf文件,搜索它并找到结果。 索引扫描文档保存到的整个文件夹的最佳方法是什么? 理想情况下,所有这些都在Linux服务器上运行,因此我可以挂载此目录。
如何查看此目录以获取新文件以便自动编入索引?
如果文件被移动到Root中的(新)目录(或被删除/重命名)并自动更新索引,我如何跟踪文件?
为用户创建前端的首选方法是什么?我可以自定义Solr / browse但我宁愿使用Rails来构建站点(仅仅因为我熟悉它)并且想要向Solr发送带有查询数据的请求并获得响应/数组返回到用户。
最后但并非最不重要; 如果有人对提供此功能的商业产品有一个很好的建议,我想听听。我无意重新发明轮子,但我的搜索并没有引起我的注意。
答案 0 :(得分:0)
你一次问太多问题。所以,你得到一堆追逐指针,希望它对其他人也有用。