应用错误收集

如何轻松提取嵌入在html页面内的网页内容？

时间：2009-11-26 10:30:45

标签： css xhtml

如何轻松提取嵌入在html页面内的网页内容（如img，pdf，flv，doc，rtf，wmc等），而不是css和css背景图片，javascript。

我正在将旧内容网站迁移到新网站。重新上传所有图片，链接pdf，flv等。

4 个答案:

答案 0 :(得分：1)

如果您使用过XHTML，则可以使用普通的XML-Parser。

答案 1 :(得分：1)

BeautifulSoup类op python是一个非常好的解析器，在执行这样的操作时非常方便。

答案 2 :(得分：0)

为此，您需要一个HTML Parser。在Perl中，有HTML::Parser个模块。

答案 3 :(得分：0)

你可以使用firefox的Firebug插件进行读取。
您可以使用以下内容构建自定义应用：
http://www.codeplex.com/htmlagilitypack