转换网站HTML的工具

时间:2011-03-29 09:01:49

标签: html web-crawler

我的客户希望改变他网站的外观。内容和页面的位置将保持不变,甚至是文章中图像的src。只有设计才会改变。设计已经确定,并且还创建了静态html页面。

我想要一个工具来执行以下操作:

  1. 下载网站上的所有页面(所有页面都是.html页面)
  2. 将文章的html部分放在页面内,并将它们放在我提供的模板中。
  3. 将它们写入我机器的输出目录。
  4. 我只想要html页面,无需下载图片或css或javascript。

    有什么想法吗?

2 个答案:

答案 0 :(得分:1)

我认为您不会找到能够做到这一点的工具。也许perl(或类似)脚本下载所有页面(wget),然后解析查找某些table / css-class regex以识别文章内容的位置。如果所有文件都具有相似且结构良好的格式,则应该没有问题。然后,您的脚本将该内容写入另一个格式良好的文件(您的模板)到由某个'div class =“article”'标识的特定位置。

答案 1 :(得分:1)

是的,很难找到这种螨虫的工具。但如果所有页面都具有相同的格式,您可以使用strip_tags并查找并替换以删除html和您不想要的任何内容。这将只给你文章字符串重新写入你的新模板。