所以这是我关于美丽汤的第二个问题(抱歉,我是初学者)
我试图从这个网站获取数据:
https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/
我的代码:
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'
uClient = uReq(url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "lxml")
print(page_soup)
但由于某种原因,它会返回一个空字符串。
我一直在寻找类似的主题,显然它与使用外部api的网站有关,但这个网站没有。
答案 0 :(得分:2)
似乎gzip的响应的内容类型,所以你需要在处理html响应之前处理它。
require(dplyr)
df %>%
arrange(OrgName, ProgramName) %>%
distinct(OrgName, .keep_all = TRUE) %>%
ungroup()
# OrgName ProgramName OrgType
# 1 Org1 P1 Consulting
# 2 Org2 P1 Government
# 3 Org3 P2 Government
答案 1 :(得分:1)
尝试使用requests
模块
<强>实施例强>
import requests
from bs4 import BeautifulSoup as soup
url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'
uClient = requests.get(url)
page_soup = soup(uClient.text, "lxml")
print(page_soup)