Question

我想使用Java在.tif文件中获取现有的OCR数据。此OCR数据是使用MS Office Document Image Writer创建的。我搜索了一些开源库，但我找不到任何可以检索/读取附加的OCR数据的库/工具。

如何使用Java在.tif文件中获取此OCR数据？

Answer 1

可以使用ExifTool检索使用MS Office Document Image Writer和（其他）元数据创建的OCR数据。

示例：

String[] cmdLineInput = { "C:\\ExifTool\\exif.exe", "-ee",
        "C:\\images\\example.tif" };
ProcessBuilder processBuilder = new ProcessBuilder(cmdLineInput);
Process exif; // = processBuilder.start();

/**
 * CmdLineIpnut[1] = Fully qualified path to exiftool CmdLineIpnut[2] =
 * -ee // ( extract embedded ) option to extract data from multipaged
 * .tif files. CmdLineIpnut[3] = Fully qualified path to .tif file.
 */

String outputLine = "";

try {
    exif = processBuilder.start();
    BufferedReader brInput = new BufferedReader(new InputStreamReader(
            exif.getInputStream()));

    while ((outputLine = brInput.readLine()) != null) {
        System.out.println(outputLine);

    }
    exif.waitFor();

} catch (IOException ioe) {
    // handle exeception
}

您可以从outputLine解析一些数据并存储在对象中以用于进一步处理，例如保存在数据库中。

如何使用Java检索/读取.tif文件中的现有OCR数据？

1 个答案: