Question

我在下面的HTTPS网址上有一系列XML文件。我需要从URL获取最新的XML文件。

我试图修改这段代码但不起作用。请帮忙。

from bs4 import BeautifulSoup
import urllib.request
import requests

url = 'https://www.oasis.oati.com/cgi-bin/webplus.dll?script=/woa/woa-planned-outages-report.html&Provider=MISO'
response = requests.get(url, verify=False)
#html = urllib.request.urlopen(url,verify=False)
soup = BeautifulSoup(response)

我想beautifulsoup不会读取响应对象。如果我使用urlopen函数，则会抛出SSL错误。

Answer 1

BeautifulSoup无法直接了解requests的{{1}}个实例 - 抓住Response并将其传递给＆＃34;汤＆＃34;解析：

.content

soup = BeautifulSoup(response.content, "html.parser") # you can also use "lxml" or "html5lib" instead of "html.parser"了解＆＃34;类文件＆＃34;对象也是 - 这意味着，一旦你弄清楚你的SSL错误问题，你可以这样做：

BeautifulSoup

Answer 2

我首先没有正确构建我的问题。但在进一步研究之后，我发现我真的试图提取引用的url标签中的所有URL。有了更多美丽汤的背景，我会使用soup.find_all（'a'）。

从HTTPS获取最新的XML文件

2 个答案: