Question

嗨，我需要使用python（我的python版本是2.6.6）只使用网址爬行。

首先我需要打开此链接（http://www.google.com/）并抓取，我应该收集此页面中的所有http链接;
第二，从收集的http链接，我应该转到每个链接，通过此链接我需要打开并执行爬网过程，并应将已爬网的链接保存在单独的文件夹中。我只是尝试这种方式，如果有人知道解决方案PLZ回复我需要你的帮助..

Answer 1

步骤1：使用python的urllib or urllib2库并访问您的页面。

步骤2：使用lxml或Beautiful Soup之类的任何xml / html解析器来获取网页中的所有链接。

Step3：现在再次将这些链接传递给urllib或urllib2并保存您的网页。

您还可以尝试Scrapy或Mechanize。

以下是使用xpath expressions with lxml的示例。您可以使用firebug获取任何元素的xpath。

import lxml
from lxml import etree
import urllib2

response = urllib2.urlopen('your url')
html = response.read()
link = etree.HTML(html)
links = link.xpath('xpath expr')

使用网址抓取

1 个答案: