所以我开始学习如何使用 BeautifulSoup 进行网页抓取,但我遇到了一个我似乎无法克服的疑问。 我试图保存每篇文章的 id 并打印它,但是我的程序总是不返回任何内容。 This is part of the html im using, I want to obtain the value inside data-ad-id(在本例中为 8083037957)
for art in soup.find_all('article'):
values = [regist.text for regist in art.find_all('data-ad-id')]
data.append(values)
print(values)
我该如何处理这个问题?谢谢
答案 0 :(得分:0)
像“soup.article”这样简单的东西就可以解决您的问题!
soup = BeautifulSoup(HTML, "lxml") # Replace 'HTML'
values = soup.article['data-ad-id']
data.append(values)