标签: python web-scraping beautifulsoup

我正在尝试从this site中提取时间表数据。内容包含在类为.departures-table的div中。我想忽略前两行并将数据存储在数组中,但是它不起作用。我显然犯了一个错误,但找不到哪个。谢谢

    snav_live_departures_url = "https://www.snav.it/"
    headers = {'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.3'}
    request = urllib.request.Request(snav_live_departures_url,headers=headers)
    html = urllib.request.urlopen(request).read()
    soup = BeautifulSoup(html,'html.parser')
    snav_live_departures = []
    snav_live_departures_table = list(soup.select('.departures-table div')) [2:]
for div in snav_live_departures_table:
    div = div.select('departures-row')
        'DEPARTURE HARBOUR':div[0].text,
        'ARRIVAL HARBOUR':div[1].text,
        'PURCHASE LINK':div[6].select('a')[0].attrs['href']

  1. html 不包含所需的数据,而是通过JavaScript回调加载的,可以通过查看页面源的输出以及查看{{3} }在开发人员工具中
  3. 目前还不清楚您打算如何处理该行,因为这些子元素不是 'DEPARTURE HARBOUR':td[0].text, 元素,它们都是<td> s



如上所述,在处理类似JavaScript的页面时,您可能需要在浏览器中的Dev Tools上监视Network,以查看数据的加载方式。


import requests
import json

URL = 'https://booking.snav.it/api/v1/dashboard/nextDepartures?callback=jQuery12345&_=12345'

r = requests.get(URL)
s = r.content.decode('utf-8')
data = json.loads(s[16:len(s)-2])