我有很多pdf文件。编写一个python代码从中提取文本。该文件的结构如下
案件编号:ABCD
上诉人:XYZ
听力敢于:01-01-2222
案件事实: Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah
案件的决定: Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah
我想将文本文件转换为csv,如下所示:
案件编号|上诉人|听证会日期|案件事实|决定
ABCD | XYX | 01-01-2222 | Blah Blah | Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah
是否可以使用python。到目前为止的代码如下:
import PyPDF2
pdfFileObj = open('1.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pages = int(pdfReader.numPages)
with open("1.txt", "a") as myfile:
for i in range(pages):
pageObj = pdfReader.getPage(i)
num= pageObj.extractText()
stg=num.strip()
print(stg)
myfile.write(stg)
打印('完成')e这里
随附文本文件。感谢