以xml格式保存word文档

时间:2014-09-17 06:39:28

标签: xml ms-word ms-office

我试图以xml格式保存word文件,并在解析后对该xml文件执行一些操作。

我的word文档中的数据在不同的标签中被打破。

例如

如果我在我的word文档中有$ date,则将其作为$和日期分为两个标签。另外tlyadd被分成两个标签tly并添加,而tlyabcd保留在一个标签中。

在另一个文档中,这些值不会分解为不同的标记。

我不了解这些值放在不同标签中的基础。

我无法在msdn上找到xml格式的任何内容。

有人可以向我解释为什么以及在什么基础上这样做。

以下是包含这些值的document

如果不清楚并需要更多解释,请告诉我

1 个答案:

答案 0 :(得分:1)

您不应该对文本是一次运行还是多次运行做出任何假设。没有规则限制文本可能被分割的情况。

也就是说,有各种各样的东西可以强制你的文本在运行中分开:

  • 拼写/语法检查(可能发生在$ date),你可以关闭
  • 格式化,例如,如果一半字是粗体
  • 修订版(不同的人在不同的时间更改文档 - rsid)
  • 更改跟踪 等

您可以/应该预处理文档以加入运行。例如,请参阅docx4j' s VariablePrepare.java