我正在用c ++编写一个搜索程序,它将在一组文件中搜索一组单词。这些文件是文本文件或docx文件。问题是如何在c ++中搜索docx文件,我甚至无法打开它,如果我需要将其转换为文本文件,程序是什么以及我将如何搜索它?
答案 0 :(得分:4)
.docx是zip,里面有一堆XML文件。它记录在http://openxmldeveloper.org/articles/GuidedTourOfSpecPart1.aspx
答案 1 :(得分:1)
OOXML文件格式正式记录在ECMA-376中。有一个等效的ISO标准(29500,如果内存服务),但我相信你必须付钱才能得到它,两者是相同的 1 。但是,作为警告,这些是巨大的文档,文件格式本身绝对不容易处理。只是获取原始文本是一个相对简单的任务,但仍然不是很简单。
1 ISO在其“快速通道”计划下接受了ECMA标准,即使在某些情况下,它还没有完全遵循正常的ISO指南
答案 2 :(得分:0)
如果无法编写自己的OOXML解析器,则可以使用docx2txt转换docx文件。