我是Python的新手,我正在尝试学习网页抓取。
我有以下代码,想知道如何获取/打印href或链接:
< .h1>< .a href =" https://www.nytimes.com/tips">有机密的新闻提示?
答案 0 :(得分:1)
您可以使用BeautifulSoup
完成这项工作:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
response = urlopen("http://someurl.com")
page_source = response.read()
soup = BeautifulSoup(page_source, 'html.parser')
x = soup.find_all('h1')
print (x)
然后你要做的就是使用re
模块并从输出中提取数据。