MS Office和PDF文档的架构定义

时间:2012-12-13 05:19:25

标签: pdf xls docx doc xlsx

我们的项目涉及解析具有结构化内容的文档,用户必须上传正在进入的文档的模式。到目前为止,我们只处理了XML,所以这很好。但现在要求xls(x),doc(x)和pdf。

这些文档类型是否有架构定义?我可以肯定它可能不适用于pdf,但希望可能有某种方法将这些用于其他类型。

1 个答案:

答案 0 :(得分:1)

MSDN具有Microsoft格式的支持

PDF是一种基于PostScript的页面描述语言,因此没有一个对文档内容具有语义感的模式。