将MS Word文本转换为普通有效的html / css

时间:2013-07-24 20:46:55

标签: html css ms-word converter

我正在寻找一种方法将几个段落和有序/无序列表从MS Word文件转换为HTML。

现在,问题是当将Word文件保存为“htm / html”类型的文件(我正在使用Word 2010)时,我得到各种不需要的CSS指令,有些是MS发明的,有些是有效的CSS,我不想在我的HTML代码中。此外,甚至更有问题的是,有序/无序列表甚至没有用LI项编码到OL和UL,而是用疯狂的Microsofty编码。

例如,段落(在Word中样式为“正常”)将转换为:

<p class=MsoNormal>
 <span style='font-size:10.0pt;line-height:115%;mso-bidi-font-style:italic'>
  bla bla </span></p>

我只想明白:

<p><span>bla bla</span></p>  

更可怕的是,带有一个列表项的简单的无法删除列表(“项目符号列表”)将被转换为:

<p class=MsoListParagraph style='text-indent:-18.0pt;mso-list:l0 level1 lfo1'>
 <![if !supportLists]>
  <span style='font-family:Symbol;mso-fareast-font-family:Symbol;mso-bidi-font-family:Symbol'>
   <span style='mso-list:Ignore'>·
    <span style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;

    </span></span></span><![endif]>
 <span dir=LTR</span>Bla bla</p>

虽然我希望得到:

<ul><li>Bla bla</li></ul>

有什么想法吗?

非常感谢!

P.S。我正在使用Zend Studio(可能还有一个内置的eclipse / zend特定的转换器?) p.s.p.导出为html的唯一MS Word选项我发现在Options =&gt;中高级=&gt;一般=&gt; Web选项。使用这些选项并没有解决上述任何问题。

1 个答案:

答案 0 :(得分:7)

好的,找到了一个奇怪但有效的解决方案:

使用http://htmleditor.in/index.html和“从Word粘贴”选项,但是使用(具有讽刺性!)Internet Explorer(使用IE 9测试)执行此操作。

原因是,当我使用Chrome进行工作时,按下“从Word粘贴”, html div-type弹出就会要求我允许直接访问我的剪贴板数据,以及何时使用ctrl-v粘贴文本,根据需要,结果是没有子弹(项目符号项被转换为段落)。

相反,当我使用IE 9而不是div类型弹出时,我得到一个 IE系统类型弹出,并粘贴那些子弹......

具有讽刺意味的是,为了解决从微软开始的问题,我使用了另一种微软产品,可能是因为它的html兼容性差,正是我想要的......哈哈。