是否可以通过Tesseract-OCR获取已识别字符的字体,即从命令行或使用API获取Arial或Times New Roman。
我正在扫描可能包含不同字体和不同字体的文档,并且获取此信息会很有用。
答案 0 :(得分:4)
Tesseract在ResultIterator
类中定义了一个API WordFontAttributes
函数,您可以使用它。
答案 1 :(得分:1)
基于nguyenq's answer,我编写了一个简单的python脚本,该脚本为每个检测到的字符打印字体名称。该脚本使用python lib tesserocr。
[HttpGet]
public FileResult GetLogFile(int id = 0)
{
var fileData = new byte[0];
using (var context = new SomeDbContext())
{
var entity = context.SomeEntity.FirstOrDefault(x => x.Id == id);
fileData = entity.LOG_FILE;
}
var fileName = "SomethingSomething" + id.ToString();
return File(fileData, "text/plain", fileName);
}