Question

所以我开始学习如何使用 BeautifulSoup 进行网页抓取，但我遇到了一个我似乎无法克服的疑问。我试图保存每篇文章的 id 并打印它，但是我的程序总是不返回任何内容。 This is part of the html im using, I want to obtain the value inside data-ad-id（在本例中为 8083037957）

for art in soup.find_all('article'):
 values = [regist.text for regist in art.find_all('data-ad-id')]
 data.append(values)
print(values)

我该如何处理这个问题？谢谢

Answer 1

像“soup.article”这样简单的东西就可以解决您的问题！

soup = BeautifulSoup(HTML, "lxml") # Replace 'HTML'
values = soup.article['data-ad-id']
data.append(values)

网页抓取 w/BeautifulSoup 返回类值

1 个答案: