如何仅从提取的文本中打印特定数据?

时间:2019-04-03 07:05:54

标签: python-3.x pdf split text-extraction

我已经提取了文本,但是我已经需要提取文本的一部分。如何在不忽略所有其他文本的情况下仅打印文本中想要的部分?

BZN  海  如   赖氨酸  争夺  操作系统

B部分Œ代码共享交叉引用

其中:  请参阅以下条款:   1。 芬兰  AY  2。 印度  9W  3。 意大利  AZ   4。 日本  JL  5, 墨西哥  上午   6。  俄国 苏  7。 英国  是  8。 美国  DL  9。 越南  VN

2 法国航空
 057

C节Œ条款

  1. 其中PTC2 我只想要B部分,而不想要其他内容

导入PyPDF2 pdfFileObj = open('proviso1.pdf','rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 对于范围在(0,12)的i:

pageObj = pdfReader.getPage(i)
print(pageObj.extractText())

pdfFileObj.close()

我已经使用它提取了

我只想使用B部分

1 个答案:

答案 0 :(得分:0)

是的,正则表达式是我能想到的唯一方法。

要了解如何根据要求编写正则表达式,请参阅此-

https://docs.python.org/3/howto/regex.html