高级网络抓取

时间:2015-07-20 10:38:23

标签: web-scraping

我想抓一个网站的一部分,让我们说:www.mywebsite.com/x1 / x2

网站需要登录信息。

首先需要打开 x1 ,然后点击按钮, x2 将作为弹出窗口打开。如果您关闭 x1 ,则会失去对 x2 的访问权限。

我使用了互联网下载管理器,我认为我正确地输入了登录信息,但这次失败了,因为当您访问 x2 时需要打开 x1

网站支持JavaScript。

1 个答案:

答案 0 :(得分:0)

IDM(在我查看之后)是用于下载,而不是用于常规网络抓取。为什么不使用特殊的web scraping software?他们中的大多数支持登录和复杂的html和js-driven pages刮。在我看来,你的案例不是一个纯粹的html页面,而是一个js填充的网页。