Question

我是Computer Vision的新手。我有很多这样的图像：

我想将整个表格提取为文本。我尝试pytesseract从图像中提取文本。我尝试了以下示例代码：

try:
    import Image
except ImportError:
    from PIL import Image
from pytesseract import *

im = Image.open('/home/Downloads/b.png')
text = image_to_string(im, lang='eng')
print text

但结果真的很糟糕。一些样本：

II) Han H31 Precvsva 111
II) Pegalran Corn m
11) Quama camume. m
15) Sansmlg Eledra. KR
II) snaru Corn/Japan 11>
II) 15 msnlay Co 1111 KR
13)]ah1lC1rcuvl Inc us
II) Iaman Semioan... 1w
I1)Japan msulay Inc 11>
I1) Schneider Fleck... 511
II) campal Elec|ram 111
II) 5111-9110 onlme 5. JP
I1) C1500 syaens Inc us
Is) Warned Semic. 111
II) Mvcran Techmla. us
I1) Camnuler Sclenc
I1) Flex Lid us
I111me1 Corn 115

如何提高效率？我能达到80-90％的准确度吗？我的所有图像都采用相同的格式。那么我可以提高用例的准确性吗？任何建议都会有所帮助。

更新：我尝试使用OCR.space，但它根本不适用于以下图像：

Test

Answer 1

这是一个关于学习OCR还是仅仅获得结果的项目？如果您只需要一个好的结果，请考虑使用Google Cloud vision之类的API或免费的OCR.space online OCR API。我使用他们的在线表格对OCR.space进行了快速测试，并且开箱即用。使用ImageMagick等工具进行一些基本的预处理，如放大图像，可以进一步提高识别率。

Answer 2

您的图像的主要问题是，它只有96 dpi（而OCR通常需要300 dpi）。我将图像更改为300 dpi，并使用Lancosz算法使用IrfanView将其重新采样至200％。这应该等同于某些convert语句。

通过将此new image作为Tesseract的输入，输出看起来更好：

2?) Hon Hai Precisio...
23) Pegatron Corp

2) Quanta Compute...
25) Samsung Electro...
26) Sharp Corp/Japan
27) LG Display Co Ltd
8) Jabil Circuit Inc
M) Taiwan Semicon...
3) Japan Display Inc
31) Schneider Electr...
3) Compal Electroni...
33) GungHo Online E...
X) Cisco Systems Inc
33) Advanced Semic...
%) Micron Technolo...
3) Computer Scienc...
3) Flex Ltd

3) Intel Corp



TW
TW
TW
LG
JP
LG
US
TW
JP
FR
TW
JP
US
TW
US
US
US
US





1.80%
10.40%
-9.50%

2.72%
-0.57%

5.03%

3.90%

1.38%

1.30%

1.33%
-0.13%
-6.21%

0.31%
-3.63%
-0.20%

1.33%
-1.56%

3.91%



53.67%
60.08%
64.85%

5.97%
27.10%
30.28%
24.00%
16.26%
53.70%

0.92%
14.28%
51.70%

0.73%
39.13%
11.00%

6. 7335
2.61%



5.65B
5.078

1 58B
1.808
1.108
1.028
1.278
70.89M
785.20M
177. 44M
90.56M
925.18M
436.70M
89.24M
411.54M
411.06M



cogs
COGS

COGS
[eels
COGS
[eelcis
COGS
CAPEX
COGS
SG&A
CAPEX
cogs
COGS
SG&A
COGS
[eoles



54.66%
16.33%
14.84%

4. 05%
3.65%
3.30%
3.26%
3.23%
3.00%
2.90%
2.85%
2.28%

1. 503;
1.47%
1.42%
142%



#2015A CF
£2015A CF
#2015A CF
Estimate
#2016A CF
Estimate
#2016A CF
Estimate
#2016A CF
Estimate
Estimate
#2015A CF
Estimate
Estimate
#201701 CF
Estimate
Estimate
Estimate



03/30/2016
03/17/2016
03/31/2016
06/10/2016
06/23/2016
02/24/2017
10/20/2016
05/09/2016
06/21/2016
05/27/2016
10/19/2016
03/22/2016
01/03/2017
02/22/2017
01/09/2017
01/03/2017
01/30/2017
01/03/2017

但是，此处的第三列完全被忽略，其他一些值也完全丢失。也许，布局识别有一些问题......

使用一些OCR提高文本提取效率

2 个答案: