我正在编写代码以获取Google Pagerank的域名列表。经过一段时间和一定数量的查询后,我的ips被列入黑名单,现在我收到了HTTP错误403.我的问题是如何添加到我的脚本中,每隔一秒就从我在测量服务器上的ips池中更改ip地址我正在使用。有人可以帮忙吗?
from __future__ import print_function, division
import sys
import urllib.request as _urlib1 # py3
import urllib.parse as _urlib2 # py 3
def get_pagerank(url):
hsh = check_hash(hash_url(url))
gurl = 'http://toolbarqueries.google.com/tbr?client=navclient-auto&features=Rank&ch=%s&q=info:%s' % (hsh, _urlib2.quote(url))
u = _urlib1.urlopen(gurl)
s = u.read().decode('utf-8') # for py2, comment .decode() part
#print(s) # debug - response of server
rank = s.strip()[9:]
if rank == '':
rank = 'None'
if rank == 'None':
rank = 'None'
return rank
这是我的代码:
答案 0 :(得分:0)
在Linux和一个接口eth0:
sudo ifconfig eth0 down
sudo ifconfig eth0 newAdress
sudo ifconfig eth0 up
你必须从python启动它作为命令,从你的可用IP列表中改变newAdress
您可以使用以下命令运行命令:
from subprocess import call
subprocess.call(["command", "arg1", "arg2"])
为了定期执行此操作,请使用线程或celery