我正在使用python库PyPDF2,并尝试使用PdfFileReader读取pdf文件。适用于本地pdf文件。有没有办法从Google Cloud Storage存储桶(gs:// bucket_name / object_name)访问我的pdf文件?
with open('testpdf.pdf,'rb') as f1:
pdf = PdfFileReader(f1)
number_of_pages = pdf.getNumPages()
如何代替“ testpdf.pdf”,提供Google Cloud Storage对象的位置?请让我知道是否有人尝试过。
答案 0 :(得分:0)
您可以使用 GCSFS 库从 gcs 存储桶访问文件。例如。
import gcsfs
from PyPDF2 import PdfFileReader
gcs_file_system = gcsfs.GCSFileSystem(project="PROJECT_ID")
gcs_pdf_path = "gs://bucket_name/object.pdf"
f_object = gcs_file_system.open(gcs_pdf_path, "rb")
# Open our PDF file with the PdfFileReader
file = PdfFileReader(f_object)
# # Get number of pages
num = file.numPages
f_object.close()