应用错误收集

从.docx中提取内容以及媒体和图像

时间：2019-06-07 14:36:18

标签： docx

我已经阅读了很多有关.docx实际上是.zip伪装的有用文章，还有document.xml包含：body＆可以提取为

https://www.codeproject.com/Articles/20529/Using-DocxToText-to-Extract-Text-from-DOCX-Files

https://medium.com/@kieranmaher13/extracting-the-content-from-word-files-in-nodejs-1ccf93ac011f 但是我想提取的不仅仅是文本。.我也想提取图片以及与...有关的文本。

我知道那里有word / _rels / document.xml.rels，但是它以文本形式获得ID ...我想将其提取为诸如picture1的关系，属于Text15等

0 个答案:

没有答案