我正在尝试网页抓取一个页面,但我一直收到错误消息。 "引发HTTPError(req.full_url,code,msg,hdrs,fp)HTTPError:Not Found"。
任何人都可以看到我为什么会遇到这个问题以及如何解决这个问题?
这是我的代码:
import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
U="https://llis.nasa.gov/search?organization=arc&page=1"
uClient=uReq(U)
page_html=uClient.read()
uClient.close()
page_soup=soup(page_html,"html.parser")
page_soup.h2
答案 0 :(得分:1)
使用requests
模块作为处理HTTP请求的功能更强大,更灵活:
import bs4, requests
url = "https://llis.nasa.gov/search?organization=arc&page=1"
data = requests.get(url)
soup = bs4.BeautifulSoup(data.content, 'html.parser')
print(soup.body)
输出:
<body>
<script src="assets/vendor.js"></script>
<script src="assets/js/bootstrap.min.js"></script>
<script src="assets/llis.js"></script>
</body>