Question

我正在运行以下代码并获取所有空值，这可能不正确。

for link in page_source:
    wd.get(link)
    #print(link)
    html_page = wd.page_source 
    soup = bs(html_page, 'html.parser')
    for a in soup.find_all('a', {'href':re.compile('_id\=')}):
    link_text = a['href']

    if '/admin/airflow/tree?dag_id=' in link_text and '&num_runs=' not in link_text:

        ID = re.match('(.*)_id=(\w+)', link_text).group(2)

        cir1 = soup.find_all('circle')[0].text
        cir2 = soup.find_all('circle')[1].text
        cir3 = soup.find_all('circle')[2].text
        cir4 = soup.find_all('circle')[3].text
        cir5 = soup.find_all('circle')[4].text
        cir6 = soup.find_all('circle')[5].text
        cir7 = soup.find_all('circle')[6].text
        cir8 = soup.find_all('circle')[7].text
        cir9 = soup.find_all('circle')[8].text

print(id+'|'+cir1+'|'+cir2+'|'+cir3+'|'+cir4+'|'+cir5+'|'+cir6+'|'+cir7+'|'+cir8+'|'+cir9)

结果：

barra_cae5_daily_smgm|||||||||

这是我正在使用的页面后面的HTML。

每行'link_text'中的每个ID最多有9个圆形标签。然后，我移至下一行，获取下一个ID，以及所有的圆圈标记，依此类推。如何获取这些“圆形”标签？谢谢。

尝试获取9个连续的HTML标签

0 个答案: