为什么我不能通过BeautifulSoup刮掉亚马逊?

时间:2014-05-09 01:32:55

标签: python beautifulsoup amazon

这是我的python代码:

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

适用于google.com和许多其他网站,但它对amazon.com无效。

我可以在我的浏览器中打开amazon.com,但结果是"汤"仍然没有。

此外,我发现它也无法从appannie.com中获取。但是,代码不返回任何内容,而是返回错误:

HTTPError: HTTP Error 503: Service Temporarily Unavailable 

所以我怀疑亚马逊和App Annie是否会阻挠。

请自己尝试,而不是仅仅投票到问题:(

由于

4 个答案:

答案 0 :(得分:2)

添加标题,然后就可以了。

from bs4 import BeautifulSoup
import requests
url = "http://www.amazon.com/"

# add header
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.content, "lxml")
print soup

答案 1 :(得分:1)

你可以试试这个:

import urllib2
from bs4 import BeautifulSoup

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

在python中,任意文本都被称为字符串,必须用引号(“”)括起来。

答案 2 :(得分:0)

添加标题

import urllib2
from bs4 import BeautifulSoup

headers = {'User-agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36'}

page = urllib2.urlopen("http://www.amazon.com/")
soup = BeautifulSoup(page)
print soup

答案 3 :(得分:0)

我刚遇到这个问题,发现设置任何用户代理都可以。您无需为用户代理撒谎。

response = HTTParty.get @url, headers: {'User-Agent' => 'Httparty'}
相关问题