from bs4 import BeautifulSoup
import requests
r = requests.get("xxx")
soup = BeautifulSoup(r.content)
for link in soup.find_all('html'):
print link
这不适合我,有人可以帮忙吗?
答案 0 :(得分:0)
for link in soup.find_all('a'):
if '.html' in link['href']:
print link
答案 1 :(得分:-1)
您可能希望使用正则表达式并搜索“href”属性。这样的东西可以帮助你入门。假设您正在搜索所有href属性
import re
from urllib2 import urlopen
from bs4 import BeautifulSoup
tags = soup.find_all(href = re.compile(r"\.html$"))
tags变量将是href属性以.html结尾的所有html标签的列表。现在,您可以遍历标记并提取href