有没有办法从docx文件中提取超链接?我已经知道有一些方法可以将images或content作为纯文本。但是我得到了一个带有超链接的缩略图的docx文件。使用提到的内容函数我只收到每个缩略图的这个数字:2933700。但是如何过滤超链接的网址?
修改
与此同时,我发现文本链接保存在word / _rels / document.xml.rels(在zip文件中)以及以下类型的许多链接:“http://schemas.openxmlformats.org/package/2006/relationships”。所以有一种方法来过滤它们。但我仍然不知道图像的超链接存储在何处。真奇怪。他们必须在某个地方,但在哪里?
答案 0 :(得分:0)
preg_match_all('#\bhttps?://[^\s()<>]+(?:\([\w\d]+\)|([^[:punct:]\s]|/))#', $string, $match);