我想使用Java在.tif文件中获取现有的OCR数据。此OCR数据是使用MS Office Document Image Writer创建的。我搜索了一些开源库,但我找不到任何可以检索/读取附加的OCR数据的库/工具。
如何使用Java在.tif文件中获取此OCR数据?
答案 0 :(得分:0)
可以使用ExifTool检索使用MS Office Document Image Writer和(其他)元数据创建的OCR数据。
示例:
String[] cmdLineInput = { "C:\\ExifTool\\exif.exe", "-ee",
"C:\\images\\example.tif" };
ProcessBuilder processBuilder = new ProcessBuilder(cmdLineInput);
Process exif; // = processBuilder.start();
/**
* CmdLineIpnut[1] = Fully qualified path to exiftool CmdLineIpnut[2] =
* -ee // ( extract embedded ) option to extract data from multipaged
* .tif files. CmdLineIpnut[3] = Fully qualified path to .tif file.
*/
String outputLine = "";
try {
exif = processBuilder.start();
BufferedReader brInput = new BufferedReader(new InputStreamReader(
exif.getInputStream()));
while ((outputLine = brInput.readLine()) != null) {
System.out.println(outputLine);
}
exif.waitFor();
} catch (IOException ioe) {
// handle exeception
}
您可以从outputLine解析一些数据并存储在对象中以用于进一步处理,例如保存在数据库中。