Question

我正在使用Python 3编写一个脚本来登录亚马逊以获取我的Kindle亮点。它基于这篇文章：https://blog.jverkamp.com/2015/07/02/scraping-kindle-highlights/

我无法成功登录，而是收到一条消息，说明要启用Cookie：

<RequestsCookieJar[<Cookie ubid-main=189-4768762-8531647 for .amazon.com/>]>
Failed to login: 

Please Enable Cookies to Continue

To continue shopping at Amazon.com, please enable cookies in your Web browser.
Learn more about cookies and how to enable them.

我已经包含了处理Cookie的请求会话，但它似乎没有用。

以下是我尝试执行此操作的代码：

import bs4, requests

session = requests.Session()
session.headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'
}

# Log in to Amazon, we have to get the real login page to bypass CSRF
print('Logging in...')
response = session.get('https://kindle.amazon.com/login')

soup = bs4.BeautifulSoup(response.text, "html.parser")

signin_data = {}
signin_form = soup.find('form', {'name': 'signIn'})
for field in signin_form.find_all('input'):
    try:
        signin_data[field['name']] = field['value']
    except:
        pass

signin_data[u'ap_email'] = 'myemail'
signin_data[u'ap_password'] = 'mypassword'


response = session.post('https://www.amazon.com/ap/signin', data = signin_data)

soup = bs4.BeautifulSoup(response.text, "html.parser")

warning = soup.find('div', {'id': 'message_warning'})
if warning:
    print('Failed to login: {0}'.format(warning.text))

我使用会话时是否缺少某些内容？

Answer 1

2020-此代码将不再起作用。亚马逊已在其登录页面中添加了JavaScript，如果未执行，则会使此序列失败。检索到的页面将指出未启用Cookie，即使它们可以正常工作。将用户名和密码一起发送会导致包含验证码的验证页面响应。先发送用户名，然后在第二次交换中发送密码，结果为“出了点问题”，并再次要求输入用户名/密码。 Amazon识别未执行JavaScript。

Answer 2

您的登录表单数据实际上不正确，应该是电子邮件和密码：

signin_data[u'email'] = 'your_email'
signin_data[u'password'] = 'your_password'

您还可以使用css select和has_attr：

来避免尝试

import bs4, requests

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'
}

from bs4 import BeautifulSoup

with requests.Session() as s:
    s.headers = headers
    r = s.get('https://kindle.amazon.com/login')
    soup = BeautifulSoup(r.content, "html.parser")
    signin_data = {s["name"]: s["value"]
                   for s in soup.select("form[name=signIn]")[0].select("input[name]")
                   if s.has_attr("value")}

    signin_data[u'email'] = 'your_em'
    signin_data[u'password'] = 'pass'

    response = s.post('https://www.amazon.com/ap/signin', data=signin_data)
    soup = bs4.BeautifulSoup(response.text, "html.parser")
    warning = soup.find('div', {'id': 'message_warning'})
    if warning:
        print('Failed to login: {0}'.format(warning.text))
    print(response.content)

输出的第一行，您最后可以看到<title>Amazon Kindle: Home</title>：

b'<?xml version="1.0" encoding="utf-8"?>\n<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en-US" lang="en-US">\n  <head>\n    <title>Amazon Kindle: Home</title>\n

如果它仍然无效，您应该更新请求的版本，并尝试使用其他用户代理。一旦我更改了ap_email和ap_password，我就登录了。

无法使用Python登录Amazon

2 个答案: