从谷歌学者下载多个pdf文件

时间:2017-05-09 13:38:37

标签: java netbeans web-scraping

我想从谷歌学者那里下载所有付费/未付费的论文,这些论文在任何特定论文中引用,我将简单地提取相应引文标签的参考文献,从而参考。我无法想到的是如何将所有参考文献逐一转发给学者并将其全部下载。任何帮助将不胜感激。而且我只需要papaer的摘要,因此plx建议是否有方法可以访问摘要,或者我将下载整篇论文。

1 个答案:

答案 0 :(得分:0)

  1. 您应该找到PDF

    您可以使用okhttp向网址发送请求(使用GET):

    OkHttpClient client = new OkHttpClient();
    
    Request request = new Request.Builder()
                     .url(" https://scholar.google.com.br/scholar?q=the_paper_i_want")
                     .build();
    
    Response response = client.newCall(request).execute();
    String html = response.body().string();
    

    这将为您提供一个html页面。

  2. 使用JSoup(例如)解析html页面。

     Document doc = Jsoup.parse(html);
     Elements links = doc.select("a[href]");
    

    您可能会查找属性href以“.pdf”结尾的标记。

  3. 下载PDF

    现在您可以使用代码like this

  4. 下载(免费)pdf

    PS:很抱歉没有将链接指向JSoup,我的声誉不够高。