Question

我在自己的 PDF 中使用 pdf2image convert_from_bytes 以便将它们转换为 PNG 格式。上下文是 AWS Lambda，py 3.8。

...
images = convert_from_bytes(infile,
                            dpi=DPI,
                            fmt=FMT)

for page_num, image in enumerate(images):
    location = "png/" + event.key.split('.')[0] + "-page" + str(page_num) + '.' + FMT

    buffer = BytesIO()
    image.save(buffer, FMT.upper())
    buffer.seek(0)
    ...

尽管我能够“正确”生成 PNG（意味着包含所有信息和文本），但生成的 PNG 似乎在此过程中使用 Times New Roman 作为 PDF 中每个段落的字体。同时，PDF 本身使用正确的字体正确显示，我确保它通过属性嵌入了字体。只有当我尝试将其转换为 PNG 格式时才会出现问题。此外，我不想使用任何花哨的字体，只使用 Courrier-Bold 和 Helvetica。

这里有一个 pdf 的例子（部分）：

结果图像：

到目前为止我尝试了什么？

我尝试使用一些在线工具转换我的 PDF，看看这是否有效，或者 PDF 本身是否有问题。 PNG 图像正确，字体正确。
我尝试使用我的 Lambda 函数处理一些随机 PDF，生成的 PNG 也具有正确的字体，因此转换似乎适用于大多数 PDF。
我尝试了几种不同的字体，但结果相同。
我尝试在 Include custom fonts in AWS Lambda 之后将字体嵌入 AWS lambda 中，但没有成功

但在这一点上我一无所知。知道如何调试吗？

编辑： PDF字体属性

EDIT2： 我写了一个小的 python 程序来为每个现有的基本字体生成一个句子。

然后当我通过 lambda 时我得到这个：

AWS Lambda 上的 PDF2image - 导致 PNG 字体错误

0 个答案: