将几百个.doc页面放入网页

时间:2010-07-14 18:35:00

标签: html text ms-word include

我有数百个.doc文件,其中包含我需要放在网页上的文字。

我意识到我可以将每个.doc文件转换为.txt,然后使用服务器端包含将每个页面的内容嵌入到网页中。这将节省大量时间,因为我可以简单地使用一个.php?txt = ...页面,它将显示不同的.txt包含,具体取决于用户按下的链接。这完全符合内容。

但是,当转换为.txt(标题应为粗体)时,所有格式都将丢失

当我使用Microsoft Word将这些.doc文件转换为.html时,~20行文档变得臃肿> 300行.htm文件(可能是因为每个段落放入文本框中)

Dreamweaver的“清理Word HTML”有所帮助,但代码仍然非常臃肿。

你会怎么建议这样做?

编辑:我可能已经解决了我自己的问题,试图将Google文档嵌入到我的页面中。

5 个答案:

答案 0 :(得分:0)

答案 1 :(得分:0)

MS Word是英国媒体报道。它自己的标记是膨胀的,因此任何将其自动转换为HTML的尝试都将继承这些问题。你没有充分的理由最终得到像<strong><strong></strong></strong>这样的垃圾。

Dreamweaver可以对它进行大量清理,但是没有任何条带/备注可以让你获得干净的结果。

这就是大多数人使用PDF来解决此类问题的原因。

答案 2 :(得分:0)

我的直接反应是将文档转换为PDF。这通常会很好地保留格式,并且用户通常会将其浏览器设置为以某种方式查看PDF(并且少数人不会习惯于无法在很多站点上查看大量文档)。

答案 3 :(得分:0)

好的,感谢大家的建议,但我想让所有人都可以访问这个页面,而且没有pdf观众。

Google文档允许您批量上传文本文件(并为您转换文件)

然后,您可以将它们导出到iframe中以嵌入任何html文档。

答案 4 :(得分:0)

有一个名为wv(以前的mswordview)的程序套件。它有一个程序wvWare。该软件可以将Word文档转换为HTML。

此外,您可以使用Word的输出并通过整洁发送。这可以纠正标记,通常可以处理Word所犯的错误。