Question

我有很多pdf文件。编写一个python代码从中提取文本。该文件的结构如下

案件编号：ABCD

上诉人：XYZ

听力敢于：01-01-2222

案件事实： Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah

案件的决定： Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah

我想将文本文件转换为csv，如下所示：

案件编号|上诉人|听证会日期|案件事实|决定

ABCD | XYX | 01-01-2222 | Blah Blah | Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah Blah

是否可以使用python。到目前为止的代码如下：

import PyPDF2
pdfFileObj = open('1.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
pages = int(pdfReader.numPages)

with open("1.txt", "a") as myfile:
    for i in range(pages):
            pageObj = pdfReader.getPage(i)
            num= pageObj.extractText()
            stg=num.strip()
            print(stg)
            myfile.write(stg)

打印（'完成'）e这里

随附文本文件。感谢

python转换为基于python

0 个答案: