使用tesseract 3.01的字符值置信度值

时间:2012-06-19 10:11:06

标签: tesseract

我执行了以下代码来生成逐字符置信度值:

int main(int argc, char **argv) {

    const char *lang="eng";
    const PIX   *pixs;
     if ((pixs = pixRead(argv[1])) == NULL) {
       cout <<"Unsupported image type"<<endl;
        exit(3);
      }
    TessBaseAPI  api;
    api.SetVariable("save_blob_choices", "T");
    api.SetPageSegMode(tesseract::PSM_SINGLE_WORD  );        
    api.SetImage(pixs);
    int rc = api.Init(argv[0], lang);
    api.Recognize(NULL);
    ResultIterator* ri = api.GetIterator();
    if(ri != 0)
    {
        do
        {
            const char* symbol = ri->GetUTF8Text(RIL_SYMBOL);
            if(symbol != 0)
            {
                float conf = ri->Confidence(RIL_SYMBOL);
                cout<<"\nnext symbol: "<< symbol << " confidence: " << conf <<"\n" <<endl;

             }


            delete[] symbol;
                }    while((ri->Next(RIL_SYMBOL)));
    }
    return 0;
}

link to image

上面图像获得的输出是:

  

下一个符号:N置信度:72.3563下一个符号:B置信度:72.3563

     

下一个符号:E置信度:69.9937下一个符号:T置信度:69.9937
  下一个符号:R置信度:69.9937下一个符号:置信度:69.9937
  下一个符号:N置信度:69.9937下一个符号:G置信度:69.9937
  下一个符号: - 信心:69.9937下一个符号:我信心:69.9937

很明显,属于同一个单词的字符的置信度值是相同的。 这是预期的产出吗?每个角色的置信度值是否应该不同? 我尝试执行一个单词的代码,其中每个字符都有不同的字体样式。但是,对于属于同一个单词的字符,置信度值是相同的。

1 个答案:

答案 0 :(得分:2)

问题是你在 SetVariable调用之后调用了Init