Question

我制作了一个wordpress插件，将博客帖子作为帖子数据发送，以便我可以保存网页。我使用以下查询从博客中获取数据：

select * from $wpdb->posts

以上这一行并不重要，但只是提到它告诉你我是如何获取博客数据的。

数据包含HTML标记。我需要解析HTML以获取图像的URL。获得URL后，我知道如何从URL下载图像。我想知道解析HTML标记的好方法，以获取图像的URL而不会出现任何错误。

python是首选语言。

Answer 1

有几个python模块可以帮到你：

BeautifulSoup
lxml.html
html5lib

例如，

import BeautifulSoup

html = """
  <html><body>
    <h1>My html!</h1>
    <img src="yourimage1.jpg" />
    <img src="yourimage1.jpg" />
  </body></html>
"""

bs = BeautifulSoup.BeautifulSoup(html)
urls = [img["src"] for img in bs.findAll("img")]

结果为urls == ['yourimage1.jpg', 'yourimage2.jpg']

解析HTML源代码以获取没有错误的url图像。（Python首选）

1 个答案:

解析HTML源代码以获取没有错误的url图像。 （Python首选）

1 个答案:

解析HTML源代码以获取没有错误的url图像。（Python首选）