如何提取pdf文件中附加到页面的所有超链接?

时间:2019-04-17 13:37:26

标签: pdf hyperlink pdftron

我试图获取超链接列表,然后根据形式替换超链接的文本,但是我无法提取所有超链接作为注释,因此可以帮助我了解如何将所有超链接作为注释获取并且是超链接在批注中??

修改

这正是我尝试过的方法,我能够找出批注并对其进行修改,但是我不知道如何获取为pdf上可见的批注嵌入的文本,甚至无法将其修改为contentReplacer

文档明确指出,它仅替换“ [”和“]”中包含的文本 所以我想了解一下PDFTron

  1. 实际上可以为随附的注释提供可见的文本吗?
  2. 我可以更新可见文本以进行注释吗?
  3. 还可以更新未用“ [”和“]”括起来的任何文本吗?

1 个答案:

答案 0 :(得分:1)

最简单的方法是使用ContentReplacer类替换超链接注释下的文本。

https://www.pdftron.com/documentation/samples/#contentreplacer

特别是,您将使用ContentReplacer.AddText方法传入定义要替换区域的Rect。

您可以遍历批注以查找所需的批注,然后将Rect从该批注传递到ContentReplacer.AddText方法。

https://www.pdftron.com/documentation/samples/#annotation

如果要在注释下方显示文本,可以执行以下操作。

var te = new TextExtractor();
te.Begin(pageAnnotIsOn); // where pageAnnotIsOn is a Page object
string text = te.GetTextUnderAnnot(annot); // where annot is an Annot object