如何在Python中提取<h1> </h1>之间的href链接?

时间:2017-02-25 09:20:27

标签: python

我是Python的新手,我正在尝试学习网页抓取。

我有以下代码,想知道如何获取/打印href或链接:

&lt; .h1&gt;&lt; .a href =&#34; https://www.nytimes.com/tips"&gt;有机密的新闻提示?

1 个答案:

答案 0 :(得分:1)

您可以使用BeautifulSoup完成这项工作:

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

response = urlopen("http://someurl.com")
page_source = response.read()
soup = BeautifulSoup(page_source, 'html.parser')
x = soup.find_all('h1')
print (x)

然后你要做的就是使用re模块并从输出中提取数据。