拥有10年的归档文章数据,其中大部分内容都充斥着MS Word另存为html标记,如<p class="MsoNormal">
首先,html是否能够完成剥离MS Word生成标记的任务,还是需要采取其他方法?
其次,文章的前几年按月汇总并作为文本存储类型存储在DB中。我非常喜欢将这些文章分解为单个文章,以便我可以更轻松地搜索网站(即,当搜索字词/词组匹配时,不会显示整整一个月的新闻)。我必须与之隔离文章的唯一明确模式是文章标题(粗体,16-20px之间)和文章日期,通常为10px;标题和日期都出现在文章正文之前。当我没有准确的标记来匹配时,有没有办法检测标记的<h1>
- 或<small>
-
这可能几乎无法回答,但总的来说,您会采取什么方法来应对这项不值得羡慕的任务? ;-)我在Scala的JVM上,但也可以在LAMP堆栈上进行清理工作。
赞赏的想法!