无法使用Python登录网站

时间:2017-02-22 08:52:47

标签: python web-scraping beautifulsoup

我一直在尝试使用Python请求和BeautifulSoup来尝试编写Web scraper。我尝试在线使用多种解决方案登录本网站,但无法这样做。

这样做的一个原因是表单元素不使用传统方案。下面发布了一段网站代码。任何帮助将不胜感激。

This image contains the code of the form element

编辑1:我对此很新,因此一直处于相当重要的一步。我试图更改我的登录凭据的键值,它似乎没有帮助。

My code as of now

2 个答案:

答案 0 :(得分:-1)

你可以有一些理由可以解决它的问题。您的代码也将受到赞赏。它的第一个原因是'因为你需要模仿一个真正的浏览器,比如谷歌浏览器或Firefox,我的工作才能实现。

实际上,您需要拥有一个用户代理。默认情况下,python用户代理请求不像true user agent

在您需要捕获weeb网站的cookie并将其用于登录之后。

你有很多解决办法,我可以在使用时解释两个:   - Selenium生成浏览器的行为。   - 使用请求但使用浏览器等所有选项:生成用户代理并使用cookie(服务器需要认为您是真正的用户)。

答案 1 :(得分:-1)

Dayle,你必须发表你对问题的处理方法。

我通过这种方式制作了爬虫,

response = urlopen(page_url)
    if 'text/html' in response.getheader('Content-Type'):
        print("hello 123")
        html_bytes = response.read()
        html_string = html_bytes.decode("utf-8")

并将此html_string传递给BeautifulSoup。

soup = BeautifulSoup(html_string, 'html.parser')
html_string = soup.prettify()

我认为这使得它变得更加简单。