如何解析在我自己的计算机文件中下载的html文档?

时间:2017-03-21 13:09:32

标签: html python-3.5

我写了一个python程序 (来自concurrent.futures导入ThreadPoolExecutor)从这个网站收集和下载html文档 (http://lis.ly.gov.tw/lydbc/lydbkmout?.ebe0C1E000901000000DC001E000000000000100000000C0370003dc5)。 当我在我的计算机上打开html文件(文件:///Users/XXX.html)时,使用请求和BeautifulSoup来解析这些htmls。我没能解析这些htmls。

from bs4 import BeautifulSoup
import requests
url = 'file:///Users/martinchen/PycharmProjects/legislative%20yuan%20scratching/list_pages/list_page_1.html'
requests = requests.get(url)
lytext = requests.text
soup = BeautifulSoup(lytext, "html.parser")

我得到了这个结果:

requests.exceptions.InvalidSchema: No connection adapters were found for 'file:///Users/martinchen/PycharmProjects/legislative%20yuan%20scratching/list_pages/list_page_1.html'

如何解析在我自己的计算机文件(file:///Users/XXX.html)中下载的html文档,就像相对链接(http://XXX.html)一样?

0 个答案:

没有答案