Scrape Offer不会返回任何结果

时间:2012-10-26 19:20:24

标签: error-handling html-parsing web-scraping

我在数据库中研究了这个问题,搜索了问题,发现了两个不同的错误。我已经确定503错误是亚马逊阻止我但我得到一个不同的错误,它是沿着相同的行但没有503返回它。我无法破译这种差异。有人能帮忙吗?我得到的错误如下所示。我使用的HTML解析器是HTML Agility Pack和Just Agile

  

http://www.amazon.com/gp/offer-listing/1902915208错误远程服务器返回错误:(503)服务器不可用。

  

Scrape Offers没有返回任何结果。

错误不一致,因此不容易陷阱。错误将在下一个废料中返回。这是非常随机的,并不会始终如一地使用相同的产品。我每天都会收到很多这样的信息,这使我无法更新价格并向客户提供正确的信息。

2 个答案:

答案 0 :(得分:3)

因此,我发现问题是发送给亚马逊的用户代理。 我将以下命令添加到我的CURL选项中,它现在可以正常工作 - 即使没有US-Proxy。

curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13');

答案 1 :(得分:0)

我在每20个网页请求之间放置1秒钟的睡眠时间。这解决了我的问题。