网页抓取 w/BeautifulSoup 返回类值

时间:2021-04-11 02:31:27

标签: python web-scraping beautifulsoup

所以我开始学习如何使用 BeautifulSoup 进行网页抓取,但我遇到了一个我似乎无法克服的疑问。 我试图保存每篇文章的 id 并打印它,但是我的程序总是不返回任何内容。 This is part of the html im using, I want to obtain the value inside data-ad-id(在本例中为 8083037957)

for art in soup.find_all('article'):
 values = [regist.text for regist in art.find_all('data-ad-id')]
 data.append(values)
print(values)

我该如何处理这个问题?谢谢

1 个答案:

答案 0 :(得分:0)

像“soup.article”这样简单的东西就可以解决您的问题!

soup = BeautifulSoup(HTML, "lxml") # Replace 'HTML'
values = soup.article['data-ad-id']
data.append(values)