Question

我想读取PDF文件作为文本（后记），在文件结构中添加新对象，并将最终输出保存为新PDF，但是如果我只是复制PDF PostScript内容并将其粘贴到新创建的文件中PDF文件（其中<div class="alert alert-danger">{{ error }}</div>），该文件不起作用。

我确定这可能是编码问题，但是我不确定在处理原始PostScript内容后要如何使用有效的PDF文件格式。

以下是与我不兼容的代码：

encoding='ansi'

正如我所说，输出的PDF无效！

Answer 1

第一个问题； PDF文件的内容是PDF，而不是PostScript。

第二，PDF是一个二进制文件，因此如果您复制并粘贴任何形式的翻译（例如CR / LF），都会将其破坏。

尽管看起来像Python，但是您还没有说代码使用什么编程语言。如果是Python，则以二进制而不是文本的形式读取文件可能会有所帮助。

Answer 2

PDF文件是由各种对象组成的复杂文件格式，除非您仔细使用PDF规范的低级语法，否则将很难不可能用某些其他字节任意替换某些字节并导致其静止。有效的PDF文件。

更重要的是，您要完成什么。例如。可能有一种高级方法可以完成您要尝试执行的操作，而无需直接操作PDF语法。例如。如果需要修改字体，添加注释，设置PDF版本等。否则，如果实际上需要修改PDF语法，则需要使用能够处理低级对象的库。

处理PDF文件

2 个答案: