如何使用Java检索/读取.tif文件中的现有OCR数据?

时间:2011-08-11 08:20:30

标签: java ocr

我想使用Java在.tif文件中获取现有的OCR数据。此OCR数据是使用MS Office Document Image Writer创建的。我搜索了一些开源库,但我找不到任何可以检索/读取附加的OCR数据的库/工具。

如何使用Java在.tif文件中获取此OCR数据?

1 个答案:

答案 0 :(得分:0)

可以使用ExifTool检索使用MS Office Document Image Writer和(其他)元数据创建的OCR数据。

示例:

String[] cmdLineInput = { "C:\\ExifTool\\exif.exe", "-ee",
        "C:\\images\\example.tif" };
ProcessBuilder processBuilder = new ProcessBuilder(cmdLineInput);
Process exif; // = processBuilder.start();

/**
 * CmdLineIpnut[1] = Fully qualified path to exiftool CmdLineIpnut[2] =
 * -ee // ( extract embedded ) option to extract data from multipaged
 * .tif files. CmdLineIpnut[3] = Fully qualified path to .tif file.
 */

String outputLine = "";

try {
    exif = processBuilder.start();
    BufferedReader brInput = new BufferedReader(new InputStreamReader(
            exif.getInputStream()));

    while ((outputLine = brInput.readLine()) != null) {
        System.out.println(outputLine);

    }
    exif.waitFor();

} catch (IOException ioe) {
    // handle exeception
}

您可以从outputLine解析一些数据并存储在对象中以用于进一步处理,例如保存在数据库中。