我正在寻找Adobe acrobat,我注意到的一个功能是,当你点击控制+ F时,会有一个弹出窗口来查找和替换文本。一旦按下弹出窗口上的替换按钮,整个PDF文档中的所有文本都会分成由框包围的小部分。即使在我关闭查找并替换弹出窗口之后,这些部分仍然存在。这是Adobe Acrobat功能还是可以通过其他库完成。
我一直在玩iTextSharp并且已经接近但不完全。我知道pdf中没有单词或短语,但adobe必须能够以某种方式完成它。是否可以从原始数据或xml中获取此信息。我想如果我能够回答adobe如何识别这些部分,那将会非常有帮助。有没有人有想法得到这些?
我也尝试通过acrobat手动将pdf转换为word文档,并使用open xml来解析文本。奇怪的是,word文档包含无法通过itextsharp识别的页眉和页脚。这是否意味着它至少存储在原始数据中的哪个位置?
谢谢你,我很感激。