ghostscript提取包含文本字符串的页面

时间:2016-01-26 08:15:22

标签: pdf ghostscript aix

我需要以编程方式从多页pdf中提取,只需要包含文本字符串的页面。是否可能或者我还需要其他工具?我正在研究aix。

提前

thanx

1 个答案:

答案 0 :(得分:0)

好的,首先Ghostscript不会从PDF文件中提取页面。它创建了全新的PDF文件,其视觉外观应与原始文件相同,但其内容将有所不同。

一次通过Ghostscript无法做到这一点。您可以使用txtwrite设备提取文本,然后通过输出文件获取所需文本,记下页码,然后运行另一个传递以将这些页面转换为新文件。

请注意,从PDF文件中提取文字远远不能保证正常工作!这不是原始PDF格式的意图。

另请注意,GHostscript目前仅允许处理单个范围的页面,First-> Last,所以如果你有一个不连续的集合(例如第1,3,5,7页等),那么你将不得不运行这个多次步。