我编写了一个python脚本来显示博客页面及其属性。 这项工作相当不错,除了blogspot上的一些需要在警告页面上进行手动验证,如下所示: http://ferdinandkreozot.blogspot.com/2015/12/busy-as.html
所以我不知道如何以编程方式验证以获取页面内容。 warnoing验证按钮有一些URL,如: http://ferdinandkreozot.blogspot.com/2015/12/busy-as.html?guestAuth=“一些非常长的身份证”
以下是我当前脚本打印图片网址的一部分(将url变量替换为上面的blogspot网址):
import os, sys, urllib, httplib2, validators, time
from bs4 import BeautifulSoup, SoupStrainer
http = httplib2.Http()
status, response = http.request(url)
for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('img')):
print link['src']
如何继续最终获取页面内容? 这个ID是如何生成的? 我能看到的任何例子/信息?
我是否需要使用GoogleAuth或google-auth-httplib2?即使没有谷歌帐户需要通过manaually通过。
到目前为止我什么也没找到。
非常感谢你的帮助。