Question

我有一个纵向的pdf文件，但在某些页面中，文字是横向的。当使用PyPDF2读取上面的页面时，我从extractText（）函数获取此文本：

page.extractText()

Out [24]：“U~00 w.T•〜，ca o rn rn rn~＆gt;，py ro•ti†~a~v CN d V1Uáx~Ubb QP~ y〜~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ p.p vl p O'Foo F-1 F cn W＆gt; 1~kn~ - i N•--ir~F•N r。' ~CD†rpopo 0 G v VIW~ŁU~Wo ^ o 3 .- ..-。o O .-。OO in M~on vl3óóóò~a~tn.mó00woNNp 00 a + -fl n~na O;〜o~ ^ o a .~ ... - - - - - •••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••••哦〜我“

以下是我尝试提取文字的网页示例： Portrait page, landscape text

Answer 1

如果OCR没有将文本放入PDF文档，您就无法阅读文本。

尝试使用pdflatex或文字处理器生成类似的混合方向文档，并从中提取文本以进行比较。

在文本识别阶段之前，通过将图像倾斜接近90度的角度来考虑帮助您的OCR包。

如何在python中横向阅读pdf？

1 个答案: