如何轻松提取嵌入在html页面内的网页内容(如img,pdf,flv,doc,rtf,wmc等),而不是css和css背景图片,javascript。
我正在将旧内容网站迁移到新网站。重新上传所有图片,链接pdf,flv等。
答案 0 :(得分:1)
如果您使用过XHTML,则可以使用普通的XML-Parser。
答案 1 :(得分:1)
BeautifulSoup类op python是一个非常好的解析器,在执行这样的操作时非常方便。
答案 2 :(得分:0)
为此,您需要一个HTML Parser。在Perl中,有HTML::Parser个模块。
答案 3 :(得分:0)