将一个很长的pdf页面拆分成单独的页面的最佳方法是什么?在这种情况下,一页图像由最初具有黑色线的多个字母大小的页面组成,其中每个页面应该被划分。需要说明的是,它是一个PDF文档,只有一个页面。单页是数百页的图像,因此它是一个非常长的图像。
https://filebin.net/h2wiqckndsugnr1o/sample_pdf_long3.pdf
由于在某些字母大小的页面上删除了空白区域,因此图像的页面大小不一致,因此有些页面比其他页面长。
这解释了问题:https://dustinfreeman.org/blog/pdf-splitting/但是,他们没有解决方法来解决分页符未正确对齐的问题。
是否有软件或解决方案以编程方式将单个图像提取到单个pdf文档中的多个页面中?
答案 0 :(得分:0)
我建议你使用这种方法
XObject的不同部分将在不同页面上可见。文件大小不会增加太多,因为图像将被重用。
您需要计算每个页面的顶部偏移量和大小。当然,您可以手动执行此操作。或者您可以使用某种计算机视觉算法来查找水平黑线。您必须先提取图像。给定这些行的坐标数组,您将能够计算页面边界。