Question

我正在尝试网页抓取一个页面，但我一直收到错误消息。＆＃34;引发HTTPError（req.full_url，code，msg，hdrs，fp）HTTPError：Not Found＆＃34;。

任何人都可以看到我为什么会遇到这个问题以及如何解决这个问题？

这是我的代码：

import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
U="https://llis.nasa.gov/search?organization=arc&page=1"


uClient=uReq(U)
page_html=uClient.read()
uClient.close()
page_soup=soup(page_html,"html.parser")
page_soup.h2

Answer 1

使用requests模块作为处理HTTP请求的功能更强大，更灵活：

import bs4, requests

url = "https://llis.nasa.gov/search?organization=arc&page=1"
data = requests.get(url)
soup = bs4.BeautifulSoup(data.content, 'html.parser')

print(soup.body)

输出：

<body>
<script src="assets/vendor.js"></script>
<script src="assets/js/bootstrap.min.js"></script>
<script src="assets/llis.js"></script>
</body>

网络抓取问题

1 个答案: