微软在“C”中的文字解析器

时间:2008-11-19 06:06:47

标签: c parsing ms-word

我想知道从Microsoft word(.doc和.docx)文档中解析和获取文本内容的过程。使用的编程语言应该是简单的“C”(应该是gcc)。

是否有任何图书馆已经完成这项工作,

扩展名:我可以使用相同的程序解析Microsoft power point文件中的文本吗?

4 个答案:

答案 0 :(得分:1)

我不知道存在的库,但格式规范可以免费从Microsoft获得,并承诺不会起诉你使用它们。

答案 1 :(得分:1)

Microsoft Word文档是一个巨大的野兽 - 你肯定不想自己编写这些代码。请考虑使用现有的免费Word库,例如antiwordwvWare

答案 2 :(得分:1)

在Windows上,让word完成工作并与COM对象接口,在linux上,作业在antiword完成。或者,您可以使用OpenOffice.org对象模型在任何平台上自动UNO

答案 3 :(得分:1)

如果您愿意在C中使用COM接口,可以使用自Windows 2000以来每个Windows版本中内置的IFilter接口。您可以使用它从任何版本中提取文本office文档(Word,Excel等),PDF文件或安装了IFilter支持的任何文件类型。

几年前我写了一篇关于它的blog post。这都是C ++,但您可以使用C语言中的COM对象。