Question

我正在尝试从this website下载PDF文件。

我是Python的新手，目前正在学习该软件。我已经下载了urllib和bs4之类的软件包。但是，任何URL中都没有.pdf扩展名。取而代之的是，每个格式都采用以下格式：http://www.smv.gob.pe/ConsultasP8/documento.aspx?vidDoc={.....}。

我尝试使用soup.find_all命令。但是，这并不成功。

from urllib import request
from bs4 import BeautifulSoup
import re
import os
import urllib

url="http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF"
response = request.urlopen(url).read()
soup= BeautifulSoup(response, "html.parser")    
links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)'))
print(links)

Answer 1

这对我有用：

import re

import requests
from bs4 import BeautifulSoup

url = "http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF"
response = requests.get(url).content
soup = BeautifulSoup(response, "html.parser")
links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)'))
links = [l['href'] for l in links]
print(links)

唯一的区别是我使用requests是因为我已经习惯了它，并且我为href返回的每个Tag取了BeautifulSoup属性。 / p>

下载没有.pdf网址的pdf文件

1 个答案: