我在下面的HTTPS网址上有一系列XML文件。我需要从URL获取最新的XML文件。
我试图修改这段代码但不起作用。请帮忙。
from bs4 import BeautifulSoup
import urllib.request
import requests
url = 'https://www.oasis.oati.com/cgi-bin/webplus.dll?script=/woa/woa-planned-outages-report.html&Provider=MISO'
response = requests.get(url, verify=False)
#html = urllib.request.urlopen(url,verify=False)
soup = BeautifulSoup(response)
我想beautifulsoup不会读取响应对象。如果我使用urlopen函数,则会抛出SSL错误。
答案 0 :(得分:0)
BeautifulSoup
无法直接了解requests
的{{1}}个实例 - 抓住Response
并将其传递给"汤"解析:
.content
soup = BeautifulSoup(response.content, "html.parser") # you can also use "lxml" or "html5lib" instead of "html.parser"
了解"类文件"对象也是 - 这意味着,一旦你弄清楚你的SSL错误问题,你可以这样做:
BeautifulSoup
答案 1 :(得分:0)
我首先没有正确构建我的问题。但在进一步研究之后,我发现我真的试图提取引用的url标签中的所有URL。有了更多美丽汤的背景,我会使用soup.find_all('a')。