应用错误收集

我正在研究从结构化文本中提取信息的不同方法。

目前，我正在使用org.apache.pdfbox将PDF个文档转换为png个图片，然后使用Tesseract处理这些图片。

Tesseract版本： -

compile group: 'org.bytedeco.javacpp-presets', name: 'tesseract', version: '3.04.01-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'tesseract', version: '3.04.01-1.3', classifier: 'macosx-x86_64'
compile group: 'org.bytedeco.javacpp-presets', name: 'opencv', version: '3.2.0-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'leptonica', version: '1.73-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'leptonica', version: '1.73-1.3', classifier: 'macosx-x86_64'

我要求的任何结构化文件的信息包括。

1）。文件名 2）。文件作者 3）。参考文献（例如引文）

Tesseract有可能吗？我是否必须（重新）训练tesseract？

是否可以对tesseract-ocr进行培训，以提取标题，作者，摘要和参考文献等文档内容？

0 个答案: