Question

是否可以通过Tesseract-OCR获取已识别字符的字体，即从命令行或使用API获取Arial或Times New Roman。

我正在扫描可能包含不同字体和不同字体的文档，并且获取此信息会很有用。

Answer 1

Tesseract在ResultIterator类中定义了一个API WordFontAttributes函数，您可以使用它。

Answer 2

基于nguyenq's answer，我编写了一个简单的python脚本，该脚本为每个检测到的字符打印字体名称。该脚本使用python lib tesserocr。

[HttpGet]
public FileResult GetLogFile(int id = 0)
{
    var fileData = new byte[0];

    using (var context = new SomeDbContext())
    {
        var entity = context.SomeEntity.FirstOrDefault(x => x.Id == id);
        fileData = entity.LOG_FILE;
    }

    var fileName = "SomethingSomething" + id.ToString();

    return File(fileData, "text/plain", fileName);
}

使用Tesseract-OCR获取已识别字符的字体

2 个答案: