使用Jsoup提交登录表单时出现问题

时间:2015-08-07 07:20:15

标签: java php html web-scraping jsoup

出于某种原因,当我使用正确的登录信息时,此代码不会让我进入网站。 System.out.println发布登录页面的代码,表明我的代码不起作用。有人能告诉我我忘记了什么或者它有什么问题吗?

public void connect() {

    try {
        Connection.Response loginForm = Jsoup.connect("https://www.capitaliq.com/CIQDotNet/Login.aspx/login.php")
                .method(Connection.Method.GET)
                .execute();

        org.jsoup.nodes.Document document = Jsoup.connect("https://www.capitaliq.com/CIQDotNet/Login.aspx/authentication.php")
                .data("cookieexists", "false")
                .data("username", "myUsername")
                .data("password", "myPassword")
                .cookies(loginForm.cookies())
                .post();
        System.out.println(document);
    } catch (IOException ex) {
        Logger.getLogger(WebCrawler.class.getName()).log(Level.SEVERE, null, ex);
    }
}

1 个答案:

答案 0 :(得分:1)

除了while true ; do case "$1" in -m|--mode) makeUser) case "$2" in -l|--login) makeUser "$OPTARG" case "$3" in -e|--email) makeUser "$OPTARG" case "$4" in -p|--password) makeUser "$OPTARG" exit $? esac ;; exit $? esac ;; exit $? esac ;; makeProject)... makeSite)... exit $? esac ;; done usernamepassword之外,该网站还会为登录提供两个额外的值 - cookiesVIEWSTATE
您可以从第一个EVENTVALIDATION请求的响应中获取它们,如下所示 -

Get

并在Document doc = loginForm.parse(); Element e = doc.select("input[id=__VIEWSTATE]").first(); String viewState = e.attr("value"); e = doc.select("input[id=__EVENTVALIDATION]").first(); String eventValidation = e.attr("value"); 之后添加(订单并不重要) -

password

我还会将org.jsoup.nodes.Document document = (org.jsoup.nodes.Document) Jsoup.connect("https://www.capitaliq.com/CIQDotNet/Login.aspx/authentication.php").userAgent("Mozilla/5.0") .data("myLogin$myUsername", "MyUsername") .data("myLogin$myPassword, "MyPassword") .data("myLogin$myLoginButton.x", "22") .data("myLogin$myLoginButton.y", "8") .data("__VIEWSTATE", viewState) .data("__EVENTVALIDATION", eventValidation) .cookies(loginForm.cookies()) .post(); 字段添加到两个请求中 - 某些网站对其进行测试并将不同的页面发送到不同的客户端,因此如果您希望获得与浏览器相同的响应,请添加到请求userAgent(或您正在使用的任何浏览器)。

修改
.userAgent("Mozilla/5.0")的字段名称为userName,密码为myLogin$myUsernamemyLogin$myPassword请求还包含有关登录按钮的数据。我无法测试它,因为我没有在该网站上有用户,但我相信它会起作用。希望这能解决你的问题。

编辑2
要在登录期间启用Post字段,请将此行添加到remember me请求中:

post