如何从抓取的Python中填充空记录?

时间:2020-07-01 16:52:19

标签: python web-scraping beautifulsoup request

headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'}
r = requests.get('https://www.transfermarkt.com.br/esporte-clube-bahia/kader/verein/10010/saison_id/2019/plus/1', headers=headers)
soup = BeautifulSoup(r.text, 'html.parser')
impar = soup.find('table',{'class':'items'}).find_all('tr',{'class':'odd'})

bahia = []

for jog in impar:
    nome = jog.find_all('tr')[0].img.get('alt')
    posicao = jog.find_all('td',{'class':"zentriert"})[0].get('title')
    idade = jog.find_all('td',{'class':"zentriert"})[1].text
    nacionalidade = jog.find_all('td',{'class':"zentriert"})[2].img.get('alt')
    altura = jog.find_all('td',{'class':"zentriert"})[3].text[0:-2]
    pe = jog.find_all('td',{'class':"zentriert"})[4].text
    desde =jog.find_all('td',{'class':"zentriert"})[5].text
    clube_anterior = jog.find_all('td',{'class':'zentriert'})[6].img.get('alt')
    preco_pago = jog.find_all('td',{'class':"zentriert"})[6].get('title')
    contrato = jog.find_all('td',{'class':"zentriert"})[7].text
    valor = jog.find('td',{'class':"rechts hauptlink"}).text[0:-4]
    bahia.append((nome,posicao,idade,nacionalidade,altura,pe,desde,clube_anterior,preco_pago,contrato,valor))

我的问题是列表中的某些元素(即时消息抓取所在的位置)没有属性“ clube_anterior”。当我尝试impar[7].find_all('td',{'class':"zentriert"})[6]时,我得到<td class="zentriert"></td>,然后当我进行impar[7].find_all('td',{'class':"zentriert"})[6].img.get('alt')时,我得到一个错误( AttributeError: 'NoneType' object has no attribute 'get'),但是这段代码适用于我的大多数记录...无论如何,我是否可以跳过产生此错误或保留为NaN或None的记录?

1 个答案:

答案 0 :(得分:1)

将访问权限包装在try: except AttributeError:中。

您也无缘无故地一次又一次地查询TD。我也是这样重构的:

for jog in impar:
    nome = jog.find_all("tr")[0].img.get("alt")
    tds = jog.find_all("td", {"class": "zentriert"})
    posicao = tds[0].get("title")
    idade = tds[1].text
    nacionalidade = tds[2].img.get("alt")
    altura = tds[3].text[0:-2]
    pe = tds[4].text
    desde = tds[5].text
    try:
        clube_anterior = tds[6].img.get("alt")
    except AttributeError:
        clube_anterior = None
    preco_pago = tds[6].get("title")
    contrato = tds[7].text
    valor = jog.find("td", {"class": "rechts hauptlink"}).text[0:-4]
    bahia.append(
        (
            nome,
            posicao,
            idade,
            nacionalidade,
            altura,
            pe,
            desde,
            clube_anterior,
            preco_pago,
            contrato,
            valor,
        )
    )