我们已经构建了一个应用程序,用于索引多种格式的提交文档,跨越Microsoft Office到文本。问题在于,对于pdf,我们经常使用转换为Word,然后编制索引。这是一个缓慢的过程并且存在问题,特别是因为它不处理需要OCR组件的基于图像的pdf。
这个问题集中在为我的用户提供pdf文档库的全文搜索的解决方案。如果有可比较的解决方案,则首选处理Microsoft Office格式的解决方案。
目前,我的应用程序将J2EE平台与MySQL数据库一起使用。如果它提供了显着的好处,我将愿意切换到非关系型数据库。
答案 0 :(得分:0)
我对其他想法持开放态度,但这是我在研究中找到的最佳解决方案。
我调查了很多工具,最终在亚马逊云搜索和谷歌云端硬盘SDK之间徘徊。两者都具有强大的索引,标记和自定义属性功能,可以进行强大的全文搜索。
不幸的是,Amazon Cloud Search 开箱即用,不提供PDF索引(source),甚至还提供了使用实验性命令行工具({{3 }})从输入文件生成SDF,然后通过API提交,然后我必须集成我自己或另一个第三方OCR工具。
Google云端硬盘documented here / SDK 虽然存在重大缺点,但要求每位用户都拥有一个Google帐户(通过在用户之间共享帐户,我必须下载由于无法通过URI轻松解决文件权限,因此该平台可以满足并超出我所需的功能。上传时,所有人都需要将API设置为true。