我想也可以使用tesseract的Process
方法从多个图像中获取文本并将文本保存在.txt文件中,包括没有文本应跳过的图像。到目前为止,这是我的代码:
Bitmap img = new Bitmap(@"C:\Tesseract\imagem1.png");
var ocr = new TesseractEngine(@"C:\Tesseract\tesseract-ocr\tessdata", "por");
var page = ocr.Process(img, Tesseract.PageSegMode.AutoOsd);
string txtPath = @"C:\Tesseract\out.txt";
using (FileStream fs = File.Create(txtPath))
{
Byte[] info = new UTF8Encoding(true).GetBytes(page.GetText());
fs.Write(info, 0, info.Length);
}
当我使用没有文本的图像运行代码时,Tesseract向控制台输出“字符太少。跳过此页面”,这很好,但是代码仍然会生成带有空行的.txt文件。我可以在页面变量上使用任何属性或方法来了解处理后的图像是否没有文本?也许还有其他的东西。