应用错误收集

时间：2015-03-05 18:24:47

标签： java-ee pdf indexing ocr full-text-indexing

我们已经构建了一个应用程序，用于索引多种格式的提交文档，跨越Microsoft Office到文本。问题在于，对于pdf，我们经常使用转换为Word，然后编制索引。这是一个缓慢的过程并且存在问题，特别是因为它不处理需要OCR组件的基于图像的pdf。

这个问题集中在为我的用户提供pdf文档库的全文搜索的解决方案。如果有可比较的解决方案，则首选处理Microsoft Office格式的解决方案。

目前，我的应用程序将J2EE平台与MySQL数据库一起使用。如果它提供了显着的好处，我将愿意切换到非关系型数据库。

答案 0 :(得分：0)

我对其他想法持开放态度，但这是我在研究中找到的最佳解决方案。

我调查了很多工具，最终在亚马逊云搜索和谷歌云端硬盘SDK之间徘徊。两者都具有强大的索引，标记和自定义属性功能，可以进行强大的全文搜索。

不幸的是，

Amazon Cloud Search 开箱即用，不提供PDF索引（source），甚至还提供了使用实验性命令行工具（{{3 }}）从输入文件生成SDF，然后通过API提交，然后我必须集成我自己或另一个第三方OCR工具。

Google云端硬盘documented here / SDK 虽然存在重大缺点，但要求每位用户都拥有一个Google帐户（通过在用户之间共享帐户，我必须下载由于无法通过URI轻松解决文件权限，因此该平台可以满足并超出我所需的功能。上传时，所有人都需要将API设置为true。