Python网络爬虫

时间:2012-07-26 13:29:29

标签: python web-crawler

是否有任何python抓取工具可以从网页中提取所有数据:http://www.bestbuy.com/site/HTC+-+One+S+4G+Mobile+Phone+-+Gradient+Blue+%28T-Mobile%29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= 在此页面中,客户评论有两个页面1和2.我想抓取他的网址并获取两个页面的内容。这是否可以使用python爬虫。

python crawler也支持所有现代GET / POST技术

2 个答案:

答案 0 :(得分:12)

您可以使用Scrapy

  

Scrapy是一种快速的高级屏幕抓取和网络抓取框架,用于抓取网站并从其网页中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

答案 1 :(得分:3)

如果您要抓取网站,请参阅this post。如果您只想处理某些页面并分析其内容(意味着您知道要处理的网址),请尝试BeautifulSoup,它可以让您执行以下操作:

page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for f in soup.findAll('form'):
    target_url = f['action']
    #do something with each one of the forms