Question

所以这是我关于美丽汤的第二个问题（抱歉，我是初学者）

我试图从这个网站获取数据：

https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/

我的代码：

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = uReq(url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "lxml")

print(page_soup)

但由于某种原因，它会返回一个空字符串。

我一直在寻找类似的主题，显然它与使用外部api的网站有关，但这个网站没有。

Answer 1

似乎gzip的响应的内容类型，所以你需要在处理html响应之前处理它。

require(dplyr)

df %>%
  arrange(OrgName, ProgramName) %>%
  distinct(OrgName, .keep_all = TRUE) %>%
  ungroup()

#   OrgName ProgramName    OrgType
# 1    Org1          P1 Consulting
# 2    Org2          P1 Government
# 3    Org3          P2 Government

Answer 2

尝试使用requests模块

<强>实施例

import requests
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = requests.get(url)
page_soup = soup(uClient.text, "lxml")
print(page_soup)

返回空的html的美丽的汤

2 个答案: