应用错误收集

拥有10年的归档文章数据，其中大部分内容都充斥着MS Word另存为html标记，如<p class="MsoNormal">

首先，html是否能够完成剥离MS Word生成标记的任务，还是需要采取其他方法？

其次，文章的前几年按月汇总并作为文本存储类型存储在DB中。我非常喜欢将这些文章分解为单个文章，以便我可以更轻松地搜索网站（即，当搜索字词/词组匹配时，不会显示整整一个月的新闻）。我必须与之隔离文章的唯一明确模式是文章标题（粗体，16-20px之间）和文章日期，通常为10px;标题和日期都出现在文章正文之前。当我没有准确的标记来匹配时，有没有办法检测标记的<h1> - 或<small> -

这可能几乎无法回答，但总的来说，您会采取什么方法来应对这项不值得羡慕的任务？ ;-)我在Scala的JVM上，但也可以在LAMP堆栈上进行清理工作。

赞赏的想法！

HTML整洁，清理MS Word标记

1 个答案: