使用jsoup获取并重定向链接到最后一个带有?token =的链接

时间:2017-09-23 01:39:23

标签: java html cookies https jsoup

以下是我尝试使用我的方法打开的链接:

https://www.deviantart.com/download/652802405/sugar_rush_by_rainbow_highway-dasntk5.png?token=2080f7bdd7953b1b5128e45fe1f8d06c6ba8c4f1&ts=1506130109

以下是我打开它的代码,它不起作用....

public static Document loadURL(String arg) throws IOException
{
    /*
     * This is a method that fake an agent and make a document out of 
     * a url link. 
     */
        try
        {
        Document doc = Jsoup.connect(arg)
                  .data("query", "Java")
                  .userAgent("Mozilla")
                  .cookie("auth", "token")
                  .timeout(10000)
                  .post();
        return doc;
        }

首先我想知道这个词是什么?token =到底意味着什么?

为什么我的浏览器可以打开链接,而这种方法不能?

如果一个网络浏览器可以做到这一点,我怎么能用jsoup做同样的事情呢?

我搜索了一下,我觉得这是一个cookie身份验证,但我没有得到详细信息。(如果我知道详细信息,我可能会知道如何伪造它...)

如果您想知道页面上的链接在哪里,它就在这里: https://rainbow-highway.deviantart.com/art/Sugar-Rush-652802405

我是否需要在此页面中重定向的cookie或者我只需要在结尾处使用奇特的十六进制代码?token = ?????

链接位于下载按钮中,它是我自己的DA页面。

1 个答案:

答案 0 :(得分:0)

我找到了一个解决方案,它适用于网站异常艺术; 灵感来自github的一个项目。

https://github.com/4pr0n/ripme/blob/master/src/main/java/com/rarchives/ripme/ripper/rippers/DeviantartRipper.java

Map<String,String> cookies = new HashMap<String , String>();

    org.jsoup.Connection.Response resp = 
            Jsoup.connect("https://sorcerushorserus.deviantart.com/art/Dash-Academy-2-Hot-Flank-Part8-263131103")
            .userAgent("Mozilla").execute();

    cookies = resp.cookies();

    Document doc = resp.parse();

    Elements eles = doc.select("a.dev-page-download");

    if(eles.size()>0)
    {
        System.out.println("We have the downlaod link on this page!");

        String downloadlink = eles.get(0).attr("href");

        System.out.println(":"+downloadlink);

        HttpURLConnection con = (HttpURLConnection) new URL(downloadlink).openConnection();

        String cookiesString = "";

        for(Map.Entry<String, String> entry:cookies.entrySet())
        {
            cookiesString = cookiesString+entry.getKey()+"="+entry.getValue()+";";
        }

        cookiesString = cookiesString.substring(0, cookiesString.length()-1);

        System.out.println("Cookie String: "+cookiesString);

        con.setRequestProperty("Cookie", cookiesString);

        con.setRequestProperty("User-Agent","Mozilla");

        con.setInstanceFollowRedirects(true);

        con.connect();

        int respondcode = con.getResponseCode();

        Thread.sleep(10000);

        String location = con.getURL().toString();

        System.out.println("response code: "+ respondcode);

        System.out.println("image location: "+location);

        con.disconnect();

所以....很酷......