从.docx中提取内容以及媒体和图像

时间:2019-06-07 14:36:18

标签: docx

我已经阅读了很多有关.docx实际上是.zip伪装的有用文章,还有document.xml包含:body&可以提取为

https://www.codeproject.com/Articles/20529/Using-DocxToText-to-Extract-Text-from-DOCX-Files

https://medium.com/@kieranmaher13/extracting-the-content-from-word-files-in-nodejs-1ccf93ac011f 但是我想提取的不仅仅是文本。.我也想提取图片以及与...有关的文本。

我知道那里有word / _rels / document.xml.rels,但是它以文本形式获得ID ...我想将其提取为诸如picture1的关系,属于Text15等

0 个答案:

没有答案