我发现有很多工具可以通过拆分原始PDF文件PAGE WISE将Big PDF文件分解成更小的文件。例如,如果我有一个10页的PDF文档,那么我们就可以打破原来的pdf文件分为10页,分页。
但我想要类似的工具打破PDF文件小于Page wise splitting.That意味着,我需要根据任何参数,如段落,部分,元素......将PDF页面拆分为不同的文档。
例如,如果我的PDF文件有2页10段,那么我想根据段落参数将pdf文件拆分成10个单独的Pdf文件...
另外,我坚信pdf不包含任何像Open XML这样的结构。但我也怀疑
这些工具如何通过逐页拆分将pdf文件分解为小的pdf文件?
它们用于页面的机制是什么明智的分裂PDF文件?
那么,有什么方法可以完成我的工作吗?请给我你宝贵的建议吗?
答案 0 :(得分:2)
PDF是基于矢量的文档描述语言。它是基于页面的,因此每个页面都独立于下一页。因此,拆分页面很容易。与光栅图像相反,您可以在pdf中独立提取小子集,您必须渲染整个页面以了解小子集的外观。
假设您有一个包含复杂形状对象的页面(黑色)(此处它是一条线,但它可以是任何文本,形状,图像等),并且您想要提取一个子集(红色)。您必须首先找到在感兴趣的区域中产生可见输出的所有对象。然后你必须修改它们才能正确渲染它们(在这种情况下,从蓝点计算绿点,同时保留对象的形状)。
更简单的方法是包括整个页面并将查看区域剪切到区域的尺寸。
您可以使用pdfjam
执行此操作。检查--trim
/ --offset
/ --delta
命令以及自定义纸张尺寸(pdfjam网站上的示例6,7)。你仍然需要以某种方式计算感兴趣区域的坐标。