即使页面存在,也会获取状态代码404

时间:2018-03-12 19:06:22

标签: python html beautifulsoup python-requests http-status-code-404

我已经尝试使用java和python抓取这个特定的链接,但我仍然获得404状态代码,即使它存在。

import requests
from bs4 import BeautifulSoup
from lxml import html
from collections import defaultdict

url = 'https://www.slacker.com/station/pop-remix'

def main():
    page = requests.get(url)
    print(page.status_code)
    print()

if __name__ == "__main__": main()

1 个答案:

答案 0 :(得分:0)

这似乎是服务器上的一些错误,但是当我们看到404(即根本没有找到页面)时,它不符合我们通常的想法。运行代码时,我也收到了404响应。但是当我打电话时:

page.content

之后, 转储页面内容。所以我在浏览器中找到了链接,并打开了开发人员工具。在控制台中,我可以看到以下错误:

  

无法加载资源:服务器响应状态为404(未找到)

即使页面在浏览器中呈现...我的猜测是请求未完全满足(页面的一部分无法加载),因此服务器决定发出404状态,尽管能够给你很多其他数据。