处理PDF文件

时间:2019-03-20 13:32:12

标签: pdf ansi pdf-manipulation

我想读取PDF文件作为文本(后记),在文件结构中添加新对象,并将最终输出保存为新PDF,但是如果我只是复制PDF PostScript内容并将其粘贴到新创建的文件中PDF文件(其中<div class="alert alert-danger">{{ error }}</div> ),该文件不起作用。

我确定这可能是编码问题,但是我不确定在处理原始PostScript内容后要如何使用有效的PDF文件格式。

以下是与我不兼容的代码:

encoding='ansi'

正如我所说,输出的PDF无效!

2 个答案:

答案 0 :(得分:0)

第一个问题; PDF文件的内容是PDF,而不是PostScript。

第二,PDF是一个二进制文件,因此如果您复制并粘贴任何形式的翻译(例如CR / LF),都会将其破坏。

尽管看起来像Python,但是您还没有说代码使用什么编程语言。如果是Python,则以二进制而不是文本的形式读取文件可能会有所帮助。

答案 1 :(得分:0)

PDF文件是由各种对象组成的复杂文件格式,除非您仔细使用PDF规范的低级语法,否则将很难不可能用某些其他字节任意替换某些字节并导致其静止。有效的PDF文件。

更重要的是,您要完成什么。例如。可能有一种高级方法可以完成您要尝试执行的操作,而无需直接操作PDF语法。例如。如果需要修改字体,添加注释,设置PDF版本等。否则,如果实际上需要修改PDF语法,则需要使用能够处理低级对象的库。