如何在Web爬网程序抓取页面时输入用户名和密码来执行表单身份验证

时间:2011-12-13 09:43:38

标签: java file-io web-crawler websphinx

我已经下载了websphinx来执行此操作,但我需要它来询问我网站的用户名和密码,然后将用户名和密码提交到网站,一旦经过身份验证,它应该开始抓取内部链接和子链接并保存静态数据将页面转换为excel文件。是否有任何其他方法或爬虫可以执行此操作,但仅限于java

1 个答案:

答案 0 :(得分:0)

我不熟悉websphinx,但您可以设置网址以包含基本身份验证的用户名和密码:

https://username:password@myserver.mydomain.com/