我正在尝试设计一种获取大量Word文档/页面的方法,并以最简单的方式将其中的文本/内容转换为自定义XML输出。 有问题的文档是用户手册。
我最初使用自定义XML路由,可以使用自定义标记手动标记Word文档的内容,然后我将使用自定义VSTO加载项将标记输出到XML文件中架构。但是,在查看该选项之后,似乎不可能由于Word不再支持自定义标记(如此)。
另一个看似合理的选项是使用自定义XML部件。我仍然有点不确定它是否适合我想做的事情。据我所知,我可以将自定义部件添加到文档中:
'组件'(即水泵)
'程序'(即删除或安装)
'零件编号'
'备件'(即印章,开关)
'程序步骤'
'图形'
但问题是,我不知道有多少,我们会说,这个特定组件会有“程序步骤”。它可以是一个或20.如果有20个那么我将需要输出中的20个XML元素。类似地,一个doc中可能有一个完整的'spares'列表,而另一个doc中没有,与图形相同,因此XML映射需要知道何时添加更多元素,或者不需要在不需要的地方添加元素 - 因此输出XML具有正确的元素数量。
有人知道我正在尝试做什么的好方法吗?
感谢。