HYPERLINK“目标”标签
如何从HWPF文档中提取超链接?我可以从doc文件中获取段落,并在必要时提取正确的样式,即粗体,斜体等。但我如何从段落中识别和提取超链接?
答案 0 :(得分:0)
.doc格式不会以最简单的方式存储超链接,正如您所注意到的那样......
Hyperlink将是一个CharacterRun,上面有特殊标记。一旦检测到它,只需根据引号分割文本。
在Apache Tika中有一个很好的例子,请查看WordExtractor的 handleSpecialCharacterRuns 方法,看看它是否完成。