我正尝试用beautifulsoup刮几页。但是,URL中有两个参数正在更改。
到目前为止,我还没有运气尝试过此代码。
from urllib.request import urlopen
base_url= "https://superstats.dk/"
n = 8
for i in range(1, n+1):
if (i == 1):
# handle first page
response = urlopen(base_url)
response = urlopen(base_url + "program?aar=201" % i)
response_plus =urlopen(response + "%2F201" % i+1)
data = response_plus.read()
这是我要迭代几页的输出。
import requests
from bs4 import BeautifulSoup
r = requests.get('https://superstats.dk/program?aar=2018%2F2019')
bs=BeautifulSoup(r.content, "lxml")
table_div=bs.find(id="content")
rows = table_div.find_all('tr')
for row in rows:
cols=row.find_all('td')
cols=[x.text.strip() for x in cols]
print (cols)
答案 0 :(得分:0)
使用format()
函数来更改两个参数的值。
for i in range(1,9):
url='https://superstats.dk/program?aar=201{}%2F201{}'.format(i,i+1)
print(url)
希望这会有所帮助。