我每月扫描55年的时事通讯都扫描为PDF文件。我已经在上面运行ABBYY FineReader,并向它们添加了OCR数据。这比Adobe Acrobat内置的OCR更好。我知道我可以为每个文件或Acrobat中所有文件的目录建立索引。
这些文件将位于不公开的服务器上。用户需要登录才能显示或下载它们,因此我不允许Google对其进行索引。我想从每个文件中读取OCR文本,并使用“美丽的汤”之类的内容向用户显示命中文件名和上下文,以便他们可以选择要查看或下载的文件。
即使我必须使用其OCR,也可以使用Adobe构建的索引更好。最好的办法是,我可以在Acrobat中建立目录,然后访问该文件以某种方式显示匹配的结果。这可能不会提供匹配的上下文,所以我准备使用匹配结果快速扫描目标文件并为最终用户生成匹配的上下文。
我对这些方法中的任何一种都表示满意,令人惊讶的是,我发现的所有产品似乎都依赖于可用的台式机操作系统,而且我几乎无法通过我们的Web服务器访问JavaScript,PHP和Python。
谢谢!