我已经阅读了很多有关.docx实际上是.zip伪装的有用文章,还有document.xml包含:body&可以提取为
https://www.codeproject.com/Articles/20529/Using-DocxToText-to-Extract-Text-from-DOCX-Files
https://medium.com/@kieranmaher13/extracting-the-content-from-word-files-in-nodejs-1ccf93ac011f 但是我想提取的不仅仅是文本。.我也想提取图片以及与...有关的文本。
我知道那里有word / _rels / document.xml.rels,但是它以文本形式获得ID ...我想将其提取为诸如picture1的关系,属于Text15等