我制作了一个wordpress插件,将博客帖子作为帖子数据发送,以便我可以保存网页。我使用以下查询从博客中获取数据:
select * from $wpdb->posts
以上这一行并不重要,但只是提到它告诉你我是如何获取博客数据的。
数据包含HTML标记。我需要解析HTML以获取图像的URL。获得URL后,我知道如何从URL下载图像。我想知道解析HTML标记的好方法,以获取图像的URL而不会出现任何错误。
python是首选语言。
答案 0 :(得分:0)
有几个python模块可以帮到你:
例如,
import BeautifulSoup
html = """
<html><body>
<h1>My html!</h1>
<img src="yourimage1.jpg" />
<img src="yourimage1.jpg" />
</body></html>
"""
bs = BeautifulSoup.BeautifulSoup(html)
urls = [img["src"] for img in bs.findAll("img")]
结果为urls == ['yourimage1.jpg', 'yourimage2.jpg']