如何轻松提取嵌入在html页面内的网页内容?

时间:2009-11-26 10:30:45

标签: css xhtml

如何轻松提取嵌入在html页面内的网页内容(如img,pdf,flv,doc,rtf,wmc等),而不是css和css背景图片,javascript。

我正在将旧内容网站迁移到新网站。重新上传所有图片,链接pdf,flv等。

4 个答案:

答案 0 :(得分:1)

如果您使用过XHTML,则可以使用普通的XML-Parser。

答案 1 :(得分:1)

BeautifulSoup类op python是一个非常好的解析器,在执行这样的操作时非常方便。

答案 2 :(得分:0)

为此,您需要一个HTML Parser。在Perl中,有HTML::Parser个模块。

答案 3 :(得分:0)

  1. 你可以使用firefox的Firebug插件进行读取。
  2. 您可以使用以下内容构建自定义应用:
    http://www.codeplex.com/htmlagilitypack