我正在寻找一种方法将几个段落和有序/无序列表从MS Word文件转换为HTML。
现在,问题是当将Word文件保存为“htm / html”类型的文件(我正在使用Word 2010)时,我得到吨各种不需要的CSS指令,有些是MS发明的,有些是有效的CSS,我不想在我的HTML代码中。此外,甚至更有问题的是,有序/无序列表甚至没有用LI项编码到OL和UL,而是用疯狂的Microsofty编码。
例如,段落(在Word中样式为“正常”)将转换为:
<p class=MsoNormal>
<span style='font-size:10.0pt;line-height:115%;mso-bidi-font-style:italic'>
bla bla </span></p>
我只想明白:
<p><span>bla bla</span></p>
更可怕的是,带有一个列表项的简单的无法删除列表(“项目符号列表”)将被转换为:
<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'>
<![if !supportLists]>
<span style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'>
<span style='mso-list:Ignore'>·
<span style='font:7.0pt "Times New Roman"'>
</span></span></span><![endif]>
<span dir=LTR</span>Bla bla</p>
虽然我希望得到:
<ul><li>Bla bla</li></ul>
有什么想法吗?
非常感谢!
P.S。我正在使用Zend Studio(可能还有一个内置的eclipse / zend特定的转换器?) p.s.p.导出为html的唯一MS Word选项我发现在Options =&gt;中高级=&gt;一般=&gt; Web选项。使用这些选项并没有解决上述任何问题。
答案 0 :(得分:7)
好的,找到了一个奇怪但有效的解决方案:
使用http://htmleditor.in/index.html和“从Word粘贴”选项,但是使用(具有讽刺性!)Internet Explorer(使用IE 9测试)执行此操作。
原因是,当我使用Chrome进行工作时,按下“从Word粘贴”, html div-type弹出就会要求我允许直接访问我的剪贴板数据,以及何时使用ctrl-v粘贴文本,根据需要,结果是没有子弹(项目符号项被转换为段落)。
相反,当我使用IE 9而不是div类型弹出时,我得到一个 IE系统类型弹出,并粘贴那些子弹......
具有讽刺意味的是,为了解决从微软开始的问题,我使用了另一种微软产品,可能是因为它的html兼容性差,正是我想要的......哈哈。