Scrape Price Title来自网站的产品图片

时间:2015-06-17 04:52:41

标签: php python web-scraping screen-scraping domdocument

刮痧对我来说是一个新话题,我很难理解它。注意:我使用的是wordpress。

例如,对于我的鞋博客,我想通过抓取来显示FootLocker产品。我如何从中提取产品的价格,标题和图像 手提箱?

从我的研究来看,似乎就是这样 PHP中的 DOMdocument 要么 Python BeautifulSoup 可能用于此目的,但我不确定。对于我的情况(提取价格,标题,图像)哪种方法有效?

DOMdocument会为此工作吗?真的需要一些指导。

修改

这是标本html

产品标题

<div class="title" data-info="product_title">
<h1 tabindex="698">Jordan Flight Origin 2 - Men's</h1>
</div>

产品价格

<div class="regular_price">
<span class="label" tabindex="-1"></span>
<span class="value">$114.99</span>
</div>

产品图片

<div class="regular_price">
<span class="label" tabindex="-1"></span>
<span class="value">$114.99</span>
</div>

PRODUCT网址

http://www.footlocker.com/product/model:234353/sku:05155015/jordan-flight-origin-2-mens/grey/multicolor/?cm=newarrivalsshoessupercat

1 个答案:

答案 0 :(得分:0)

import urllib2
import re
result = []
response = urllib2.urlopen('http://www.footlocker.com/product/model:234353/sku:05155015/jordan-flight-origin-2-mens/grey/multicolor/?cm=newarrivalsshoessupercat')
html = response.read()
m = re.search('<link rel="image_src" href="(.+?)"', html)
if m:
    image = m.group(1)
result.append(image)
m = re.search('<meta name="title" content="(.+?)"', html)
if m:
    product = m.group(1)
result.append(product)
print result

我没有使用过BeautifulSoup,只是写了一个简单的代码,以便完成你的工作....希望它工作正常,如果需要,让我知道这些变化......坦率地说,我从来没有想过时间复杂性问题与BeautifulSoup有关。