我试图从存储在S3中的pdf中读取文本。有没有办法从流中读取文本,而不是在本地创建PDF然后转换它。
import boto3 as boto
from boto3.session import Session
session = Session(
aws_access_key_id=AWS_ACCESS_KEY_ID,
aws_secret_access_key=AWS_SECRET_ACCESS_KEY
)
s3 = session.resource('s3')
obj = s3.Object('my-bucket', 'file.pdf')
text = obj.get()['Body'].read()
print(text)
我已经读过这会返回二进制字符串<botocore.response.StreamingBody object at 0x10d5a0fd0>
。但不知道如何从中得到文本。
我也是Python的新手。
如何将其作为文本阅读,以便我可以解析该文本?