使用pdfminer解析pdf元数据日期

时间:2019-03-13 14:51:30

标签: python date parsing pdf metadata

我正在尝试获取pdf文件的元数据

from pdfminer3.pdfparser import PDFParser
from pdfminer3.pdfdocument import PDFDocument
fp = open('C:/Users/asus/Desktop/storage/jdghosh_sap@rediffmail.com.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
print(doc.info[0]["CreationDate"])
print(doc.info[0]["ModDate"])

输出

b"D:20140706114446+05'30'"
b"D:20140706114446+05'30'"

如何将这些数据解析为python日期?

1 个答案:

答案 0 :(得分:0)

做了一些转换它的功能:

from pdfminer3.pdfparser import PDFParser
from pdfminer3.pdfdocument import PDFDocument

def convertPdfDatetime(pd):
    from datetime import datetime
    dtformat = "%Y%m%d%H%M%S"
    clean = pd.decode("utf-8").replace("D:","").split('+')[0]
    return datetime.strptime(clean,dtformat)

fp = open('/home/prtjohanson/test.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
pdf_creation_date = doc.info[0]["CreationDate"]
print(pdf_creation_date)
print(convertPdfDatetime(pdf_creation_date))

由于我的Linux机器上的某些原因,我在datetime字符串的末尾没有加星号的后缀,我怀疑它可能与时区有关,或者可能取决于pdf文件本身的方式已创建。

无论如何,上面的代码应涵盖这两种情况。