HTML整洁,清理MS Word标记

时间:2012-04-23 18:13:01

标签: ms-word markup htmltidy

拥有10年的归档文章数据,其中大部分内容都充斥着MS Word另存为html标记,如<p class="MsoNormal">

首先,html是否能够完成剥离MS Word生成标记的任务,还是需要采取其他方法?

其次,文章的前几年按月汇总并作为文本存储类型存储在DB中。我非常喜欢将这些文章分解为单个文章,以便我可以更轻松地搜索网站(即,当搜索字词/词组匹配时,不会显示整整一个月的新闻)。我必须与之隔离文章的唯一明确模式是文章标题(粗体,16-20px之间)和文章日期,通常为10px;标题和日期都出现在文章正文之前。当我没有准确的标记来匹配时,有没有办法检测标记的<h1> - 或<small> -

这可能几乎无法回答,但总的来说,您会采取什么方法来应对这项不值得羡慕的任务? ;-)我在Scala的JVM上,但也可以在LAMP堆栈上进行清理工作。

赞赏的想法!

1 个答案:

答案 0 :(得分:1)

如果我是你,我会使用我最喜欢的HTML::Parser套件用于Perl。如果对于像你这样的复杂和模糊陈述的问题非常好。