将20k Word Doc转换为带有自动创建的元标记的小HTML页面?

时间:2011-07-20 10:02:24

标签: php html ms-word ms-office

我有一个20000字左右的巨大单词,我想把它上传到我的博客。

但是,我想将其分解为小(ish)网页,如果可能的话,自动生成相关的关键字,标题和说明标签。无法找到一个工具来做这个,所以我想编码的东西,但我真的不知道从哪里开始。我写php / sql。我正在考虑将每个X字符分解,然后从最常出现的单词中构建元标记。这很容易但它也有很多图像。是否有一些我可以用来操纵word文档的php库?

1 个答案:

答案 0 :(得分:0)

OpenOffice能够将Word dox转换为X / HTML / XML /其他格式。

前段时间我编写了一个PHP脚本,从大型Word文档中获取XHTML结果,然后执行XSL转换 - 包括HTMLTidy - 并将它们引入定制的XHTML模板。

令人惊讶的是,结果非常好 - 有一点需要注意。取决于Word文档的编辑程度 - 尤其是跟踪改变 - 您可能会发现偶尔的角色完全消失,而且您经常会获得额外的间距。

在我的情况下,输出本质上是合法的,所以我让我们的编辑团队搜索输出并给我一个诚实的意见,说实话他们对丢失的角色感觉不太好但是基于浏览器的拼写检查器本来可以接受大部分内容。

所以 - 我的解决方案是使用Open Office转换为XHTML(我相信我必须改变转换宏 - 那里有一个非常简单的拼写错误,它使得它从内存中窒息 - 它可能已被修复)。然后随意使用输出。

检查我的个人资料并给我发电子邮件,如果你想要我写的脚本,如果你愿意的话,我明天会把你的邮件邮寄给你(它的hacky但是它有效!)。

编辑:尝试了许多其他解决方案,我忘记了细节,除了他们都比Open Office吸得更多。