Question

我正在尝试每天在媒体上搜索前10篇文章的链接 - 从它的外观来看，似乎所有文章链接都在类“postArticle-content”中，但是当我运行此代码时，我只获得前3名。有没有办法获得全部10个？

from bs4 import BeautifulSoup
import requests

r = requests.get("https://medium.com/browse/726a53df8c8b")
data = r.text
soup = BeautifulSoup(data)

data = soup.findAll('div', attrs={'class' : 'postArticle-content'}) 
for div in data:
    links = div.findAll('a')
    for link in links:
        print(link.get('href'))

Answer 1

requests为您提供了全部结果。

该页面仅包含前三个。该网站的设计是使用在浏览器中运行的JavaScript代码来加载其他内容并将其添加到页面中。

您需要一个带有javascript引擎的完整网络浏览器来完成您要执行的操作。 requests和beautiful-soup库不是Web浏览器。它们分别只是HTTP协议和HTML解析器的实现。

请求仅返回部分结果

1 个答案: