我需要您使用Python进行网页抓取的帮助。我想在下面搜索这个网站,以便从365天前获取一些信息。但是我无法正确更改URL。我只有第一天。这是我的第一个项目,我被困住了。
我拥有的网址: https://crossfit.com/workout/2017/11/04
我想要的网址: https://crossfit.com/workout/2017/11/03
等等。
这是我的实际代码:
from bs4 import BeautifulSoup as bs
from time import sleep
from datetime import date, datetime, timedelta
base_url = 'https://www.crossfit.com/workout/'
count = 365
scrape_date = date.today()
sleep(2)
bs_obj = bs(driver.page_source, 'html.parser')
boxes = bs_obj.find_all('div',{'class':'wod active'})
for i in range(count):
url = base_url + scrape_date.strftime('%Y/%m/%d')
for box in boxes:
dia = box.find('h1').text
wod = box.find('p').text
scrape_date -= timedelta(days=1)
print(dia, wod)
答案 0 :(得分:0)
我建议你看一下BeautifulSoup python库。您必须在计算机上安装该模块,但它可能是使用最广泛且用户最友好的Web抓取库。
此外,它还有大量的文档,并且有很多例子,因为有很多人使用它。
希望它有所帮助。祝你好运。
答案 1 :(得分:0)
抓取此网站的最简单方法是datetime
数学。如果您需要更多资源,Google和the documentation是您的朋友。
from datetime import date, datetime, timedelta
URL_BASE = "https://www./crossfit.com/workout/"
count = 365
scrape_date = date.today()
for i in range(count):
url = URL_BASE + scrape_date.strftime("%m/%d/%Y")
# Do your scraping here....
scrape_date -= timedelta(days=1)
count -= 1