我正在研究从结构化文本中提取信息的不同方法。
目前,我正在使用org.apache.pdfbox
将PDF
个文档转换为png
个图片,然后使用Tesseract
处理这些图片。
Tesseract版本: -
compile group: 'org.bytedeco.javacpp-presets', name: 'tesseract', version: '3.04.01-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'tesseract', version: '3.04.01-1.3', classifier: 'macosx-x86_64'
compile group: 'org.bytedeco.javacpp-presets', name: 'opencv', version: '3.2.0-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'leptonica', version: '1.73-1.3'
compile group: 'org.bytedeco.javacpp-presets', name: 'leptonica', version: '1.73-1.3', classifier: 'macosx-x86_64'
我要求的任何结构化文件的信息包括。
1)。文件名 2)。文件作者 3)。参考文献(例如引文)
Tesseract有可能吗?我是否必须(重新)训练tesseract?