Question

我使用Ephesoft社区版4.0.2.0和tif图像（由ephesoft测试）ephesoft可以从某些图像中分类或提取数据的问题，但是他可以在文件中没有错误消息记录，我现在不知道为什么。

当我点击学习文件时，HOCR和HTML生成的文件是空的，没有数据就像这样的元数据：

Application_Checklist_HOCR.xml：

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<HocrPages<HocrPage>
<Title></Title><Spans/>
<HocrContent></HocrContent>
</HocrPage></HocrPages>

但是对于US-invoice_HOCR.xml，ephesoft可以学习并且文件看起来像这样：

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage>

<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0>

<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span>

<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1>

</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0>

<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span>

<Value>lnvoice</Value><Coordinates>............

Answer 1

您可以修改/ Path-To-Ephesoft / Application / WEB-INF / classes / META-INF / dcma-tesseract / tesseract-reader.properties中的tesseract配置文件并对此行进行注释＃tesseract.command_parameters = -psm 4让tesseract使用默认分段。

Ephesoft无法学习或提取某些tif图像（并非所有图像）

1 个答案: