提取Apache POI HWPF超链接

时间:2011-12-01 09:15:05

标签: hyperlink apache-poi hwpf

HYPERLINK“目标”标签

如何从HWPF文档中提取超链接?我可以从doc文件中获取段落,并在必要时提取正确的样式,即粗体,斜体等。但我如何从段落中识别和提取超链接?

1 个答案:

答案 0 :(得分:0)

.doc格式不会以最简单的方式存储超链接,正如您所注意到的那样......

Hyperlink将是一个CharacterRun,上面有特殊标记。一旦检测到它,只需根据引号分割文本。

在Apache Tika中有一个很好的例子,请查看WordExtractor handleSpecialCharacterRuns 方法,看看它是否完成。