这可能是一项非常简单的任务,但我找不到任何帮助。我的网站采用www.xyz.com/somestuff/ID格式。我有一份我需要信息的ID列表。我希望有一个简单的脚本来访问网站,并以特定文件夹中的简单格式ID_whatever_the_default_save_name_is下载每个ID的(完整)网页。
我可以运行一个简单的python脚本来为我做这个吗?我可以手工完成,只有75个不同的页面,但我希望将来用这个来学习如何做这样的事情。
答案 0 :(得分:0)
Mechanize是一个用python抓取网页的绝佳软件包。您的问题的一个简单示例是:
import mechanize
br = mechanize.Browser()
response = br.open("www.xyz.com/somestuff/ID")
print response
这只是抓取你的网址并打印来自服务器的响应。
答案 1 :(得分:0)
这可以使用urllib模块在python中完成。这是Python 3中的一个简单示例:
import urllib.request
url = 'www.xyz.com/somestuff/ID'
req = urllib.request.Request(url)
page = urllib.request.urlopen(req)
src = page.readall()
print(src)
有关urllib模块的更多信息 - > http://docs.python.org/3.3/library/urllib.html
答案 2 :(得分:0)
你想要网站的HTML代码吗?如果是这样,只需使用主机站点创建一个url变量,然后添加页码。我将以http://www.notalwaysright.com
为例进行此操作import urllib.request
url = "http://www.notalwaysright.com/page/"
for x in range(1, 71):
newurl = url + x
response = urllib.request.urlopen(newurl)
with open("Page/" + x, "a") as p:
p.writelines(reponse.read())