网络抓取问题

时间:2017-11-15 10:57:01

标签: python beautifulsoup

我正在尝试网页抓取一个页面,但我一直收到错误消息。 "引发HTTPError(req.full_url,code,msg,hdrs,fp)HTTPError:Not Found"。

任何人都可以看到我为什么会遇到这个问题以及如何解决这个问题?

这是我的代码:

import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
U="https://llis.nasa.gov/search?organization=arc&page=1"


uClient=uReq(U)
page_html=uClient.read()
uClient.close()
page_soup=soup(page_html,"html.parser")
page_soup.h2

1 个答案:

答案 0 :(得分:1)

使用requests模块作为处理HTTP请求的功能更强大,更灵活:

import bs4, requests

url = "https://llis.nasa.gov/search?organization=arc&page=1"
data = requests.get(url)
soup = bs4.BeautifulSoup(data.content, 'html.parser')

print(soup.body)

输出:

<body>
<script src="assets/vendor.js"></script>
<script src="assets/js/bootstrap.min.js"></script>
<script src="assets/llis.js"></script>
</body>