使用Python来防止html使用防刮保护

时间:2015-08-28 21:38:21

标签: python html web-scraping

我是网络抓取的新手,请耐心等待。

尝试使用Python抓取网站。具体而言,部分<h2>Parties</h2>

中的信息

网站需要登录,计算机会自动登录。当我在firefox中查看html时,我能够看到"<h2>Parties</h2>"部分中的内容。但是,当我尝试从Python访问它并将html复制/保存到记事本时,它显示如下:

<h2>Parties</h2>
<div class="trialText">To view the parties, register now.</div>
<input type="hidden" id="hdnTeaserIndicator" value="true" />

原来,网页上的这部分信息需要登录才能查看。由于公司计算机自动登录,我可以通过Firefox访问信息,但不能通过Python访问。这也意味着 - 我不知道用户ID / PW。有没有办法在没有输入用户凭据的情况下在Python中进行抓取时自动登录? (我有这个“想法”,也许Python中的浏览器可以与IE / Firefox连接,但我不确定它是如何工作的,或者是否可能)

由于

1 个答案:

答案 0 :(得分:0)

查看要登录的机械化库,并使用美丽的汤来抓取生成的网页。