我有一个纵向的pdf文件,但在某些页面中,文字是横向的。当使用PyPDF2读取上面的页面时,我从extractText()函数获取此文本:
page.extractText()
Out [24]:“U~00 w.T•〜,ca o rn rn rn~>,py ro•ti†~a~v CN d V1Uáx~Ubb QP~ y〜~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ p.p vl p O'Foo F-1 F cn W> 1~kn~ - i N•--ir~F•N r。' ~CD†rpopo 0 G v VIW~ŁU~Wo ^ o 3 .- ..-。o O .-。OO in M~on vl3óóóò~a~tn.mó00woNNp 00 a + -fl n~na O;〜o~ ^ o a .~ ... - - - - - •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••哦〜我“
以下是我尝试提取文字的网页示例: Portrait page, landscape text
答案 0 :(得分:0)
如果OCR没有将文本放入PDF文档,您就无法阅读文本。
尝试使用pdflatex或文字处理器生成类似的混合方向文档,并从中提取文本以进行比较。
在文本识别阶段之前,通过将图像倾斜接近90度的角度来考虑帮助您的OCR包。