我想抓这个网站: https://studentservices.uwo.ca/secure/index.cfm 但是有一个登录系统。我试图在本机Java应用程序中使用htmlUnit(稍后可能用于Android)。但我无法理解如何找到合适的标签以允许用户在我的程序中输入他们的信息。
答案 0 :(得分:2)
基本上,有两种方法可以解决这个问题:
询问维护网站的人如何实施登录 programmaticaly 。 (当你在这里时,请与他们核实你计划做什么是允许的。最好首先询问,并避免因大学管理而遇到麻烦的风险。)< / p>
使用网络浏览器登录时,反向设计页面正在执行的操作。
对页面进行逆向工程的一种方法是查看页面源,阅读HTML并(尝试)弄清楚当用户单击登录按钮时会发生什么。 (该部分页面看起来像一个简单的HTML表单......)
如果该方法没有给出答案,那么在浏览器中安装和/或启用Web开发工具,并使用它们查看登录时发送的实际HTTP请求。
答案 1 :(得分:0)