我是网络抓取的新手,请耐心等待。
尝试使用Python抓取网站。具体而言,部分<h2>Parties</h2>
。
网站需要登录,计算机会自动登录。当我在firefox中查看html时,我能够看到"<h2>Parties</h2>"
部分中的内容。但是,当我尝试从Python访问它并将html复制/保存到记事本时,它显示如下:
<h2>Parties</h2>
<div class="trialText">To view the parties, register now.</div>
<input type="hidden" id="hdnTeaserIndicator" value="true" />
原来,网页上的这部分信息需要登录才能查看。由于公司计算机自动登录,我可以通过Firefox访问信息,但不能通过Python访问。这也意味着 - 我不知道用户ID / PW。有没有办法在没有输入用户凭据的情况下在Python中进行抓取时自动登录? (我有这个“想法”,也许Python中的浏览器可以与IE / Firefox连接,但我不确定它是如何工作的,或者是否可能)
由于
答案 0 :(得分:0)
查看要登录的机械化库,并使用美丽的汤来抓取生成的网页。