Question

我的问题是关于使用beautifulsoup抓取ID值。

首先，我这样做

html = driver.page_source
soup = BeautifulSoup(html,'html parser')

link = soup.find_all("li",{"id":re.compile("^goods")})

然后

link.select_one('li[id^=goods]').get('id')

但是没有用。链接没有任何功能。

要刮除所有名为id="goods~"的id值，我需要做些什么？请帮助我。

Answer 1

您需要进行层次扫描。但是如果您只希望与商品有关的所有文字都使用此文字。

soup = BeautifulSoup(html_text)
for elem in soup(text=re.compile(r' #\S{12}')):
    print elem.parent