我目前正在使用tesseract。问题是文本没有正确解析。
这是我的代码:
#include "stdafx.h"
#include "baseapi.h"
#include "leptonica\allheaders.h"
#include "iostream"
#include "fstream"
using namespace System;
using namespace std;
void writeFile(char* filename, char* content);
int main(array<System::String ^> ^args)
{
char* output;
tesseract::TessBaseAPI *baseApi = new tesseract::TessBaseAPI();
if (baseApi->Init("C:\\Users\\fss-dk\\Downloads\\tesseract-ocr-3.02.eng.tar\\tesseract-ocr\\", "eng"))
{
fprintf(stderr, "Could not init\n");
}
Pix *image = pixRead("D:\\eng.jpg");
char *text = image->text;
baseApi->SetImage(image);
output = baseApi->GetUTF8Text();
writeFile("D:\\test.txt", output);
baseApi->Clear();
baseApi->End();
pixDestroy(&image);
}
void writeFile(char* filename,char* content)
{
ofstream file;
file.open(filename);
file << content;
file.close();
}
代码工作正常并将内容写入文件。
有什么我应该想到让这个工作吗?
我尝试了20种不同的图像。