如何使用Base 64图像进行报废编码并使用python存储在数据库中

时间:2019-07-02 06:32:23

标签: python html web-scraping beautifulsoup request

我正在尝试抓取frm网站的图像,但是这些图像是使用base 64编码的。因此,如何使用python,Beautifulsoup做到这一点。

我使用python urllib尝试了代码,但无法正常工作。

import urllib
import urllib.request
from bs4 import BeautifulSoup
import base64
import os
from string import ascii_lowercase

def make_soup(url):
    thepage = urllib.request.urlopen(url)
    soupdata = BeautifulSoup(thepage, "html.parser")
    return soupdata
soup = make_soup("https://mahabhunakasha.mahabhumi.gov.in/bhunaksha/27/index.jsp")
soups = soup.decode('utf-8')

print(soups)
# for img in soup.findAll("src"):
#     print(img)

我想从所有区域下载所有图像并将其存储在mongo数据库中。

1 个答案:

答案 0 :(得分:0)

为避免我使用硒的SSL错误,您可以下载一个firefox exe并传递可执行路径,然后使用以下命令安装硒模块后就可以抓取页面:

#!pip install selenium

from bs4 import BeautifulSoup
from selenium import webdriver

driver = webdriver.Firefox(executable_path = 'C:\Gecko\geckodriver.exe')
thepage = driver.get("https://mahabhunakasha.mahabhumi.gov.in/bhunaksha/27/index.jsp")
html = driver.page_source
soup = BeautifulSoup(html,'lxml')

我在此页面上没有看到任何图像,这似乎是一个画布类。