是否可以对tesseract-ocr进行培训,以提取标题,作者,摘要和参考文献等文档内容?

时间:2017-05-25 12:50:56

标签: java ocr tesseract

我正在研究从结构化文本中提取信息的不同方法。

目前,我正在使用org.apache.pdfboxPDF个文档转换为png个图片,然后使用Tesseract处理这些图片。

Tesseract版本: -

compile group: 'org.bytedeco.javacpp-presets', name: 'tesseract', version: '3.04.01-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'tesseract', version: '3.04.01-1.3', classifier: 'macosx-x86_64'
compile group: 'org.bytedeco.javacpp-presets', name: 'opencv', version: '3.2.0-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'leptonica', version: '1.73-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'leptonica', version: '1.73-1.3', classifier: 'macosx-x86_64'

我要求的任何结构化文件的信息包括。

1)。文件名 2)。文件作者 3)。参考文献(例如引文)

Tesseract有可能吗?我是否必须(重新)训练tesseract?

0 个答案:

没有答案