如何解析word文档" .doc"," .docx"使用golang获取所有文本?
答案 0 :(得分:3)
您可以从这些项目中获得灵感:
https://github.com/nguyenthenguyen/docx
https://github.com/opencontrol/doc-template
基本上,DOCX是一个包含XML的Zip文件。
所有文本都在document.xml
两个项目都做的是删除所有XML标记,只保留文本。您应该看看这种方法是否也适合您。