嗨,我需要使用python(我的python版本是2.6.6)只使用网址爬行。
答案 0 :(得分:2)
步骤1:使用python的urllib or urllib2
库并访问您的页面。
步骤2:使用lxml或Beautiful Soup之类的任何xml / html解析器来获取网页中的所有链接。
Step3:现在再次将这些链接传递给urllib或urllib2并保存您的网页。
以下是使用xpath expressions with lxml
的示例。您可以使用firebug
获取任何元素的xpath。
import lxml
from lxml import etree
import urllib2
response = urllib2.urlopen('your url')
html = response.read()
link = etree.HTML(html)
links = link.xpath('xpath expr')