使用网址抓取

时间:2012-01-13 12:23:32

标签: python url

嗨,我需要使用python(我的python版本是2.6.6)只使用网址爬行。

  • 首先我需要打开此链接(http://www.google.com/)并抓取,我应该收集此页面中的所有http链接;
  • 第二,从收集的http链接,我应该转到每个链接,通过此链接我需要打开并执行爬网过程,并应将已爬网的链接保存在单独的文件夹中。 我只是尝试这种方式,如果有人知道解决方案PLZ回复我需要你的帮助..

1 个答案:

答案 0 :(得分:2)

步骤1:使用python的urllib or urllib2库并访问您的页面。

步骤2:使用lxmlBeautiful Soup之类的任何xml / html解析器来获取网页中的所有链接。

Step3:现在再次将这些链接传递给urllib或urllib2并保存您的网页。

您还可以尝试ScrapyMechanize

以下是使用xpath expressions with lxml的示例。您可以使用firebug获取任何元素的xpath。

import lxml
from lxml import etree
import urllib2

response = urllib2.urlopen('your url')
html = response.read()
link = etree.HTML(html)
links = link.xpath('xpath expr')