Question

刮痧对我来说是一个新话题，我很难理解它。注意：我使用的是wordpress。

例如，对于我的鞋博客，我想通过抓取来显示FootLocker产品。我如何从中提取产品的价格，标题和图像手提箱？

从我的研究来看，似乎就是这样 PHP中的 DOMdocument 要么 Python BeautifulSoup 可能用于此目的，但我不确定。对于我的情况（提取价格，标题，图像）哪种方法有效？

DOMdocument会为此工作吗？真的需要一些指导。

修改

这是标本html

产品标题

<div class="title" data-info="product_title">
<h1 tabindex="698">Jordan Flight Origin 2 - Men's</h1>
</div>

产品价格

<div class="regular_price">
<span class="label" tabindex="-1"></span>
<span class="value">$114.99</span>
</div>

产品图片

<div class="regular_price">
<span class="label" tabindex="-1"></span>
<span class="value">$114.99</span>
</div>

PRODUCT网址

http://www.footlocker.com/product/model:234353/sku:05155015/jordan-flight-origin-2-mens/grey/multicolor/?cm=newarrivalsshoessupercat

Answer 1

import urllib2
import re
result = []
response = urllib2.urlopen('http://www.footlocker.com/product/model:234353/sku:05155015/jordan-flight-origin-2-mens/grey/multicolor/?cm=newarrivalsshoessupercat')
html = response.read()
m = re.search('<link rel="image_src" href="(.+?)"', html)
if m:
    image = m.group(1)
result.append(image)
m = re.search('<meta name="title" content="(.+?)"', html)
if m:
    product = m.group(1)
result.append(product)
print result

我没有使用过BeautifulSoup，只是写了一个简单的代码，以便完成你的工作....希望它工作正常，如果需要，让我知道这些变化......坦率地说，我从来没有想过时间复杂性问题与BeautifulSoup有关。

Scrape Price Title来自网站的产品图片

1 个答案: