我已经尝试使用java和python抓取这个特定的链接,但我仍然获得404状态代码,即使它存在。
import requests
from bs4 import BeautifulSoup
from lxml import html
from collections import defaultdict
url = 'https://www.slacker.com/station/pop-remix'
def main():
page = requests.get(url)
print(page.status_code)
print()
if __name__ == "__main__": main()
答案 0 :(得分:0)
这似乎是服务器上的一些错误,但是当我们看到404(即根本没有找到页面)时,它不符合我们通常的想法。运行代码时,我也收到了404响应。但是当我打电话时:
page.content
之后, 转储页面内容。所以我在浏览器中找到了链接,并打开了开发人员工具。在控制台中,我可以看到以下错误:
无法加载资源:服务器响应状态为404(未找到)
即使页面在浏览器中呈现...我的猜测是请求未完全满足(页面的一部分无法加载),因此服务器决定发出404状态,尽管能够给你很多其他数据。