使用Jsoup进行Web爬网并不会废弃我想要的东西

时间:2017-01-10 12:18:58

标签: java web-scraping

我有以下代码来废弃所有" href"属性来自PlayStation网页中的所有元素:

https://store.playstation.com/#!/es-...s-store%3Ahome

       String url = "https://store.playstation.com/#!/es-es/ps4/cid=STORE-MSF75508-PS4CAT%7Cplatform~ps4%7Cname~asc/";
       String url2 = "?smcid=nav%3Aps-store%3Ahome";

       int juegos_totales = 0;


       ArrayList<String> all_links = new ArrayList<String>();

       int z=0;

       for (int i=1; i<50; i++) {
           String urlPage = url+i+url2;

           System.out.println("Comprobando entrada: " + urlPage);

           if (getStatusConnectionCode(urlPage) == 200) {

               Document document = getHtmlDocument(urlPage);

               Elements entradas = document.select("div.gridViewportPaneWrapper li.cellGridGameStandard");

               // Paseo cada una de las entradas


               for (Element elem : entradas) {

                       Elements links = elem.getElementsByTag("a");
                       for (Element link : links ) {
                           all_links.add(link.attr("href"));
                           juegos_totales++;

                       }
                       z++;

                   }

               System.out.println("Hay un total de " + juegos_totales + " juegos");

           }

       }

它没有废弃我不知道为什么......如果我试图取消它的标题PS4。此代码应该废弃网页的所有链接。

0 个答案:

没有答案