我使用Ephesoft社区版4.0.2.0和tif图像(由ephesoft测试)ephesoft可以从某些图像中分类或提取数据的问题,但是他可以在文件中没有错误消息记录,我现在不知道为什么。
当我点击学习文件时,HOCR和HTML生成的文件是空的,没有数据就像这样的元数据:
Application_Checklist_HOCR.xml:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<HocrPages<HocrPage>
<Title></Title><Spans/>
<HocrContent></HocrContent>
</HocrPage></HocrPages>
但是对于US-invoice_HOCR.xml,ephesoft可以学习并且文件看起来像这样:
<?xml version="1.0" encoding="UTF-8" standalone="yes"?><HocrPages><HocrPage>
<Title></Title><Spans><Span><Value>INVOICE</Value><Coordinates><x0>579</x0>
<y0>247</y0><x1>881</x1><y1>304</y1></Coordinates></Span><Span>
<Value>ACME</Value><Coordinates><x0>168</x0><y0>394</y0><x1>311</x1><y1>431</y1>
</Coordinates></Span><Span><Value>Company</Value><Coordinates><x0>329</x0>
<y0>395</y0><x1>541</x1><y1>442</y1></Coordinates></Span><Span>
<Value>lnvoice</Value><Coordinates>............
答案 0 :(得分:1)
您可以修改/ Path-To-Ephesoft / Application / WEB-INF / classes / META-INF / dcma-tesseract / tesseract-reader.properties中的tesseract配置文件并对此行进行注释#tesseract.command_parameters = -psm 4让tesseract使用默认分段。