使用Tesseract-OCR获取已识别字符的字体

时间:2013-03-28 10:09:32

标签: tesseract

是否可以通过Tesseract-OCR获取已识别字符的字体,即从命令行或使用API​​获取Arial或Times New Roman。

我正在扫描可能包含不同字体和不同字体的文档,并且获取此信息会很有用。

2 个答案:

答案 0 :(得分:4)

Tesseract在ResultIterator类中定义了一个API WordFontAttributes函数,您可以使用它。

答案 1 :(得分:1)

基于nguyenq's answer,我编写了一个简单的python脚本,该脚本为每个检测到的字符打印字体名称。该脚本使用python lib tesserocr

[HttpGet]
public FileResult GetLogFile(int id = 0)
{
    var fileData = new byte[0];

    using (var context = new SomeDbContext())
    {
        var entity = context.SomeEntity.FirstOrDefault(x => x.Id == id);
        fileData = entity.LOG_FILE;
    }

    var fileName = "SomethingSomething" + id.ToString();

    return File(fileData, "text/plain", fileName);
}