抓取需要登录的网站时,我需要什么信息?

时间:2018-08-01 19:50:49

标签: python web-scraping

我想在某个站点上访问我的公司的数据库,并使用Python进行刮取(我使用的是Requests和BS4,如果需要,我可以走得更远)。但是我不能。 有人可以向我们提供有关如何抓取此类网站的信息和简单资源。

我不是在谈论提供用户名和密码。该网站的需求远远不止于此。 我如何知道除了UN和PW之外还需要为我的脚本提供的信息(例如,我如何知道我必须提供一个身份验证令牌)?

在没有HTTP URL而是javascript:__ doPostBack形式的hrefs的情况下如何处理该网站?

在这方面,我如何从登录页面过渡到所需页面(上述提到的javascript:__ doPostBack中包含的页面)?

我使用的库够吗?还是您建议使用-在我的情况下进行学习-其他?

非常感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

您没有提到您用于抓取的内容,但是由于这听起来像本网站上的许多交互操作都是基于客户端代码,因此建议您使用真正的浏览器进行抓取并进行交互该网站不使用低级HTTP请求,而是使用客户端交互(例如,键入元素或单击按钮)。这样,您不必担心要发送什么表单数据或如何自己获取链接的URL。

推荐的一种方法是将BeutifulSoup与Selenium / WebDriver一起使用。有关执行此操作的方法,有多种资源,例如:How can I parse a website using Selenium and Beautifulsoup in python?