剥离Word文档以进行格式化而不是图像?

时间:2009-10-15 11:13:57

标签: html ms-word

我需要在wiki中添加一堆word文档,但是想要清理生成的html,所以理想情况下我有文本和图像标签......任何人都需要挑战? :O)

如果解决方案涉及使用文本编辑器并对其进行一些“体操”,那就没关系。

3 个答案:

答案 0 :(得分:2)

有些工具可以为您执行大部分清理工作,例如herehere,Dreamweaver也包含此类工具。

我不知道这些工具对图像的作用虽然......如果您选择更多的DIY路线,this可以帮助您。

答案 1 :(得分:1)

我会将文本复制出Word并将其粘贴到记事本中,然后手动将我的图像输入Wiki文档。

答案 2 :(得分:1)

您好我在Open XML上做了一点工作。

您可以循环检查单词文档,检查每个段落并将每个元素转换为文字控件。或者您也可以使用LINQ过滤特定的节点集。您也可以将word文件视为XML节点集,并使用XPath,LINQ to XML,DOM进行导航。

尝试使用SDK下载Open XML工具集,然后开始查看文档内部。