我正在尝试从this website下载PDF文件。
我是Python的新手,目前正在学习该软件。我已经下载了urllib和bs4之类的软件包。但是,任何URL中都没有.pdf扩展名。取而代之的是,每个格式都采用以下格式:http://www.smv.gob.pe/ConsultasP8/documento.aspx?vidDoc={.....}
。
我尝试使用soup.find_all命令。但是,这并不成功。
from urllib import request
from bs4 import BeautifulSoup
import re
import os
import urllib
url="http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF"
response = request.urlopen(url).read()
soup= BeautifulSoup(response, "html.parser")
links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)'))
print(links)
答案 0 :(得分:1)
这对我有用:
import re
import requests
from bs4 import BeautifulSoup
url = "http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF"
response = requests.get(url).content
soup = BeautifulSoup(response, "html.parser")
links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)'))
links = [l['href'] for l in links]
print(links)
唯一的区别是我使用requests
是因为我已经习惯了它,并且我为href
返回的每个Tag
取了BeautifulSoup
属性。 / p>