标签: pdf xls docx doc xlsx
我们的项目涉及解析具有结构化内容的文档,用户必须上传正在进入的文档的模式。到目前为止,我们只处理了XML,所以这很好。但现在要求xls(x),doc(x)和pdf。
这些文档类型是否有架构定义?我可以肯定它可能不适用于pdf,但希望可能有某种方法将这些用于其他类型。
答案 0 :(得分:1)
MSDN具有Microsoft格式的支持
PDF是一种基于PostScript的页面描述语言,因此没有一个对文档内容具有语义感的模式。