Question

我正在尝试抓取frm网站的图像，但是这些图像是使用base 64编码的。因此，如何使用python，Beautifulsoup做到这一点。

我使用python urllib尝试了代码，但无法正常工作。

import urllib
import urllib.request
from bs4 import BeautifulSoup
import base64
import os
from string import ascii_lowercase

def make_soup(url):
    thepage = urllib.request.urlopen(url)
    soupdata = BeautifulSoup(thepage, "html.parser")
    return soupdata
soup = make_soup("https://mahabhunakasha.mahabhumi.gov.in/bhunaksha/27/index.jsp")
soups = soup.decode('utf-8')

print(soups)
# for img in soup.findAll("src"):
#     print(img)

我想从所有区域下载所有图像并将其存储在mongo数据库中。

Answer 1

为避免我使用硒的SSL错误，您可以下载一个firefox exe并传递可执行路径，然后使用以下命令安装硒模块后就可以抓取页面：

#!pip install selenium

from bs4 import BeautifulSoup
from selenium import webdriver

driver = webdriver.Firefox(executable_path = 'C:\Gecko\geckodriver.exe')
thepage = driver.get("https://mahabhunakasha.mahabhumi.gov.in/bhunaksha/27/index.jsp")
html = driver.page_source
soup = BeautifulSoup(html,'lxml')

我在此页面上没有看到任何图像，这似乎是一个画布类。

如何使用Base 64图像进行报废编码并使用python存储在数据库中

1 个答案: