Question

我写了一个python程序（来自concurrent.futures导入ThreadPoolExecutor）从这个网站收集和下载html文档（http://lis.ly.gov.tw/lydbc/lydbkmout?.ebe0C1E000901000000DC001E000000000000100000000C0370003dc5）。当我在我的计算机上打开html文件（文件：///Users/XXX.html）时，使用请求和BeautifulSoup来解析这些htmls。我没能解析这些htmls。

from bs4 import BeautifulSoup
import requests
url = 'file:///Users/martinchen/PycharmProjects/legislative%20yuan%20scratching/list_pages/list_page_1.html'
requests = requests.get(url)
lytext = requests.text
soup = BeautifulSoup(lytext, "html.parser")

我得到了这个结果：

requests.exceptions.InvalidSchema: No connection adapters were found for 'file:///Users/martinchen/PycharmProjects/legislative%20yuan%20scratching/list_pages/list_page_1.html'

如何解析在我自己的计算机文件（file：///Users/XXX.html）中下载的html文档，就像相对链接（http://XXX.html）一样？

如何解析在我自己的计算机文件中下载的html文档？

0 个答案: