Question

我是网络抓取的新手，请耐心等待。

尝试使用Python抓取网站。具体而言，部分<h2>Parties</h2>。

中的信息

网站需要登录，计算机会自动登录。当我在firefox中查看html时，我能够看到"<h2>Parties</h2>"部分中的内容。但是，当我尝试从Python访问它并将html复制/保存到记事本时，它显示如下：

<h2>Parties</h2>
<div class="trialText">To view the parties, register now.</div>
<input type="hidden" id="hdnTeaserIndicator" value="true" />

原来，网页上的这部分信息需要登录才能查看。由于公司计算机自动登录，我可以通过Firefox访问信息，但不能通过Python访问。这也意味着 - 我不知道用户ID / PW。有没有办法在没有输入用户凭据的情况下在Python中进行抓取时自动登录？（我有这个“想法”，也许Python中的浏览器可以与IE / Firefox连接，但我不确定它是如何工作的，或者是否可能）

由于

Answer 1

查看要登录的机械化库，并使用美丽的汤来抓取生成的网页。

使用Python来防止html使用防刮保护

1 个答案: