我正在尝试每天在媒体上搜索前10篇文章的链接 - 从它的外观来看,似乎所有文章链接都在类“postArticle-content”中,但是当我运行此代码时,我只获得前3名。有没有办法获得全部10个?
from bs4 import BeautifulSoup
import requests
r = requests.get("https://medium.com/browse/726a53df8c8b")
data = r.text
soup = BeautifulSoup(data)
data = soup.findAll('div', attrs={'class' : 'postArticle-content'})
for div in data:
links = div.findAll('a')
for link in links:
print(link.get('href'))
答案 0 :(得分:1)
requests
为您提供了全部结果。
该页面仅包含前三个。该网站的设计是使用在浏览器中运行的JavaScript代码来加载其他内容并将其添加到页面中。
您需要一个带有javascript引擎的完整网络浏览器来完成您要执行的操作。 requests
和beautiful-soup
库不是Web浏览器。它们分别只是HTTP协议和HTML解析器的实现。