网络抓取程序将随机不起作用-返回空列表

时间:2018-12-17 23:58:19

标签: python web-scraping beautifulsoup

我是网络爬虫的新手,并且遇到了反复出现的问题。我有一个脚本,可从stubhub获取有关即将到来的机票价格的信息,并被编程为每天运行以收集有关团队,日期和最便宜价格的数据。在尝试使用BeautifulSoup提取价格之前,我的脚本运行了好几天,但结果却空了。一天后,程序再次按预期运行,没有任何更改。现在,它不再起作用,并且已经超过一个星期没有正常运行。我真的对此不敢恭维,因为我没有对代码进行任何更改,而且解决方法的尝试空手而归。

这是代码段:

#import modules 
import requests,bs4,re
from fake_useragent import UserAgent
import pandas as pd
import datetime
from dateutil import parser

# StubHub
user_agent= UserAgent()
header = {'User-Agent':str(user_agent.chrome)}
res = requests.get('https://www.stubhub.com/washington-capitals-tickets/performer/762/',headers=header)
res.raise_for_status()

#parse
soup = bs4.BeautifulSoup(res.text,'html.parser')

# list of prices for events 
links_tix = soup.find_all("div",class_="EventItem__Price")
tix_re = '\d+'
prices = [] 
for i in links_tix: # find list of cheapest prices  
    prices.append(re.findall(tix_re,str(i)))

任何关于可能导致soup.findall()方法变为空的建议都将受到赞赏。

0 个答案:

没有答案