我有数百个.doc文件,其中包含我需要放在网页上的文字。
我意识到我可以将每个.doc文件转换为.txt,然后使用服务器端包含将每个页面的内容嵌入到网页中。这将节省大量时间,因为我可以简单地使用一个.php?txt = ...页面,它将显示不同的.txt包含,具体取决于用户按下的链接。这完全符合内容。
但是,当转换为.txt(标题应为粗体)时,所有格式都将丢失
当我使用Microsoft Word将这些.doc文件转换为.html时,~20行文档变得臃肿> 300行.htm文件(可能是因为每个段落放入文本框中)
Dreamweaver的“清理Word HTML”有所帮助,但代码仍然非常臃肿。
你会怎么建议这样做?
编辑:我可能已经解决了我自己的问题,试图将Google文档嵌入到我的页面中。
答案 0 :(得分:0)
您可以尝试使用converting the Word documents to a DocBook中间格式,然后轻松transform the DocBook with existing tools to (X)HTML。
答案 1 :(得分:0)
MS Word是英国媒体报道。它自己的标记是膨胀的,因此任何将其自动转换为HTML的尝试都将继承这些问题。你没有充分的理由最终得到像<strong><strong></strong></strong>
这样的垃圾。
Dreamweaver可以对它进行大量清理,但是没有任何条带/备注可以让你获得干净的结果。
这就是大多数人使用PDF来解决此类问题的原因。
答案 2 :(得分:0)
我的直接反应是将文档转换为PDF。这通常会很好地保留格式,并且用户通常会将其浏览器设置为以某种方式查看PDF(并且少数人不会习惯于无法在很多站点上查看大量文档)。
答案 3 :(得分:0)
好的,感谢大家的建议,但我想让所有人都可以访问这个页面,而且没有pdf观众。
Google文档允许您批量上传文本文件(并为您转换文件)
然后,您可以将它们导出到iframe中以嵌入任何html文档。
答案 4 :(得分:0)
有一个名为wv(以前的mswordview)的程序套件。它有一个程序wvWare。该软件可以将Word文档转换为HTML。
此外,您可以使用Word的输出并通过整洁发送。这可以纠正标记,通常可以处理Word所犯的错误。