解析.doc& .docx使用golang获取所有文本?

时间:2016-10-22 19:52:38

标签: go ms-word docx doc

如何解析word文档" .doc"," .docx"使用golang获取所有文本?

1 个答案:

答案 0 :(得分:3)

您可以从这些项目中获得灵感:

https://github.com/nguyenthenguyen/docx
https://github.com/opencontrol/doc-template

基本上,DOCX是一个包含XML的Zip文件。 所有文本都在document.xml

两个项目都做的是删除所有XML标记,只保留文本。您应该看看这种方法是否也适合您。