PhantomJS使用HTTPS返回空白页面

时间:2017-07-13 21:14:56

标签: selenium selenium-webdriver web-scraping phantomjs

使用phantomjs selenium beautifulsoup设置来打印页面源,但只返回https上的空白html。返回http上的页面源。阅读一些材料,例如thisthis,但没有结果。

from selenium import webdriver
import urllib.request as urllib2
import requests
import urllibh
from bs4 import BeautifulSoup
import csv
import time

browser = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true', '--ssl-protocol=any'])
browser.get('https://google.com')
browser.set_window_size(2000, 1500)

soup = BeautifulSoup(browser.page_source, "html.parser")

print(soup)

browser.quit()

结果

<html><head></head><body></body></html>
Complete

1 个答案:

答案 0 :(得分:0)

browser = webdriver.PhantomJS(service_args=['--ignore-ssl-errors=true', '--ssl-client-certificate-file=C:\tmp\clientcert.cer', '--ssl-client-key-file=C:\tmp\clientcert.key', '--ssl-client-key-passphrase=1111'])

必须将SSL证书指向本地文件。