Question

我是Python的新手，我正在尝试学习网页抓取。

我有以下代码，想知道如何获取/打印href或链接：

＆lt; .h1＆gt;＆lt; .a href =＆＃34; https://www.nytimes.com/tips"＆gt;有机密的新闻提示？

Answer 1

您可以使用BeautifulSoup完成这项工作：

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

response = urlopen("http://someurl.com")
page_source = response.read()
soup = BeautifulSoup(page_source, 'html.parser')
x = soup.find_all('h1')
print (x)

然后你要做的就是使用re模块并从输出中提取数据。

如何在Python中提取<h1> </h1>之间的href链接？

1 个答案: