将PDF元数据导出到CSV

时间:2018-11-06 21:42:42

标签: csv parsing pdf export-to-csv

我对Python还是很陌生,我有我教授的脚本,该脚本从包含PDF文件的文件夹中打印元数据。我需要能够将此数据导出到新创建的CSV文件中,该文件以清晰易读的格式显示数据。我已经尝试了很长时间了,但是我不知道该在哪里/该做什么。我弄清楚了导入CSV模块的位置以及创建CSV文件所需的代码,但是仅此而已。

任何对此的帮助都是很棒的,

预先感谢一百万。

这是PDF数据提取的脚本。

#!/ bin/bash/ python
import csv
import os
import pyPdf
from pyPdf import PdfFileReader
print "Please enter the path containing your PDF files for analysis."
print '-' * 61
targ_dir = raw_input("Path: ")
file_names = os.listdir(targ_dir)
pdfMetadata = open('E:\CVF\Python\Python Class\PDF_metadata.csv','w')
def getPDFdata (PDFFile):
    pdf = PdfFileReader(file(PDFFile, 'rb'))
    if pdf.isEncrypted:
        pdf.decrypt('')
    metadata = pdf.getDocumentInfo()
print PDFFile
for info in metadata:
        try:
            print info+"::"+metadata[info]
        except UnicodeEncodeError:
            print "BAD CHARACTER ERROR"
    print "__________________________________________"
for item in file_names:
    getPDFdata(targ_dir+"\\"+item)
end = raw_input("Press Enter to Finish: ")

再次感谢您提供一百万美元的帮助。

0 个答案:

没有答案