我正在运行以下代码并获取所有空值,这可能不正确。
for link in page_source:
wd.get(link)
#print(link)
html_page = wd.page_source
soup = bs(html_page, 'html.parser')
for a in soup.find_all('a', {'href':re.compile('_id\=')}):
link_text = a['href']
if '/admin/airflow/tree?dag_id=' in link_text and '&num_runs=' not in link_text:
ID = re.match('(.*)_id=(\w+)', link_text).group(2)
cir1 = soup.find_all('circle')[0].text
cir2 = soup.find_all('circle')[1].text
cir3 = soup.find_all('circle')[2].text
cir4 = soup.find_all('circle')[3].text
cir5 = soup.find_all('circle')[4].text
cir6 = soup.find_all('circle')[5].text
cir7 = soup.find_all('circle')[6].text
cir8 = soup.find_all('circle')[7].text
cir9 = soup.find_all('circle')[8].text
print(id+'|'+cir1+'|'+cir2+'|'+cir3+'|'+cir4+'|'+cir5+'|'+cir6+'|'+cir7+'|'+cir8+'|'+cir9)
结果:
barra_cae5_daily_smgm|||||||||
这是我正在使用的页面后面的HTML。
每行'link_text'
中的每个ID最多有9个圆形标签。然后,我移至下一行,获取下一个ID,以及所有的圆圈标记,依此类推。如何获取这些“圆形”标签?谢谢。