This is the html code what I want to scrape
我的问题是关于使用beautifulsoup抓取ID值。
首先,我这样做
html = driver.page_source
soup = BeautifulSoup(html,'html parser')
link = soup.find_all("li",{"id":re.compile("^goods")})
然后
link.select_one('li[id^=goods]').get('id')
但是没有用。链接没有任何功能。
要刮除所有名为id="goods~"
的id值,我需要做些什么?
请帮助我。
答案 0 :(得分:2)
您需要进行层次扫描。但是如果您只希望与商品有关的所有文字都使用此文字。
soup = BeautifulSoup(html_text)
for elem in soup(text=re.compile(r' #\S{12}')):
print elem.parent