如何在python中横向阅读pdf?

时间:2018-04-03 18:01:53

标签: python-3.x pdf landscape-portrait pypdf2

我有一个纵向的pdf文件,但在某些页面中,文字是横向的。当使用PyPDF2读取上面的页面时,我从extractText()函数获取此文本:

page.extractText()

Out [24]:“U~00 w.T•〜,ca o rn rn rn~>,py ro•ti†~a~v CN d V1Uáx~Ubb QP~ y〜~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ p.p vl p O'Foo F-1 F cn W> 1~kn~ - i N•--ir~F•N r。' ~CD†rpopo 0 G v VIW~ŁU~Wo ^ o 3 .- ..-。o O .-。OO in M~on vl3óóóò~a~tn.mó00woNNp 00 a + -fl n~na O;〜o~ ^ o a .~ ... - - - - - •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••哦〜我“

以下是我尝试提取文字的网页示例: Portrait page, landscape text

1 个答案:

答案 0 :(得分:0)

如果OCR没有将文本放入PDF文档,您就无法阅读文本。

尝试使用pdflatex或文字处理器生成类似的混合方向文档,并从中提取文本以进行比较。

在文本识别阶段之前,通过将图像倾斜接近90度的角度来考虑帮助您的OCR包。