Question

是否有任何python抓取工具可以从网页中提取所有数据：http://www.bestbuy.com/site/HTC+-+One+S+4G+Mobile+Phone+-+Gradient+Blue+%28T-Mobile%29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= 在此页面中，客户评论有两个页面1和2.我想抓取他的网址并获取两个页面的内容。这是否可以使用python爬虫。

python crawler也支持所有现代GET / POST技术

Answer 1

您可以使用Scrapy：

Scrapy是一种快速的高级屏幕抓取和网络抓取框架，用于抓取网站并从其网页中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

Answer 2

如果您要抓取网站，请参阅this post。如果您只想处理某些页面并分析其内容（意味着您知道要处理的网址），请尝试BeautifulSoup，它可以让您执行以下操作：

page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for f in soup.findAll('form'):
    target_url = f['action']
    #do something with each one of the forms

Python网络爬虫

2 个答案: