返回空的html的美丽的汤

时间:2018-03-30 15:10:13

标签: python html beautifulsoup

所以这是我关于美丽汤的第二个问题(抱歉,我是初学者)

我试图从这个网站获取数据:

https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/

我的代码:

from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = uReq(url)
page_html = uClient.read()
uClient.close()
page_soup = soup(page_html, "lxml")

print(page_soup)

但由于某种原因,它会返回一个空字符串。

我一直在寻找类似的主题,显然它与使用外部api的网站有关,但这个网站没有。

network of website

2 个答案:

答案 0 :(得分:2)

似乎gzip的响应的内容类型,所以你需要在处理html响应之前处理它。

require(dplyr)

df %>%
  arrange(OrgName, ProgramName) %>%
  distinct(OrgName, .keep_all = TRUE) %>%
  ungroup()

#   OrgName ProgramName    OrgType
# 1    Org1          P1 Consulting
# 2    Org2          P1 Government
# 3    Org3          P2 Government

答案 1 :(得分:1)

尝试使用requests模块

<强>实施例

import requests
from bs4 import BeautifulSoup as soup

url = 'https://www.ccna8.com/ccna4-v6-0-final-exam-full-100-2017/'

uClient = requests.get(url)
page_soup = soup(uClient.text, "lxml")
print(page_soup)