Question

我已经尝试使用java和python抓取这个特定的链接，但我仍然获得404状态代码，即使它存在。

import requests
from bs4 import BeautifulSoup
from lxml import html
from collections import defaultdict

url = 'https://www.slacker.com/station/pop-remix'

def main():
    page = requests.get(url)
    print(page.status_code)
    print()

if __name__ == "__main__": main()

Answer 1

这似乎是服务器上的一些错误，但是当我们看到404（即根本没有找到页面）时，它不符合我们通常的想法。运行代码时，我也收到了404响应。但是当我打电话时：

page.content

之后，转储页面内容。所以我在浏览器中找到了链接，并打开了开发人员工具。在控制台中，我可以看到以下错误：

无法加载资源：服务器响应状态为404（未找到）

即使页面在浏览器中呈现...我的猜测是请求未完全满足（页面的一部分无法加载），因此服务器决定发出404状态，尽管能够给你很多其他数据。

即使页面存在，也会获取状态代码404

1 个答案: