在PyPDF2 PdfFileReader中使用GCS路径

时间:2019-02-12 10:46:59

标签: python-3.x

我正在使用python库PyPDF2,并尝试使用PdfFileReader读取pdf文件。适用于本地pdf文件。有没有办法从Google Cloud Storage存储桶(gs:// bucket_name / object_name)访问我的pdf文件?

with open('testpdf.pdf,'rb') as f1:
        pdf = PdfFileReader(f1)
        number_of_pages = pdf.getNumPages()

如何代替“ testpdf.pdf”,提供Google Cloud Storage对象的位置?请让我知道是否有人尝试过。

1 个答案:

答案 0 :(得分:0)

您可以使用 GCSFS 库从 gcs 存储桶访问文件。例如。

import gcsfs
from PyPDF2 import PdfFileReader

gcs_file_system = gcsfs.GCSFileSystem(project="PROJECT_ID")
gcs_pdf_path = "gs://bucket_name/object.pdf"

f_object = gcs_file_system.open(gcs_pdf_path, "rb")
    
# Open our PDF file with the PdfFileReader
file = PdfFileReader(f_object)
  
# # Get number of pages
num = file.numPages

f_object.close()