刮时缺少表格元素

时间:2019-02-27 21:34:07

标签: java web-scraping jsoup

URL:https://stats.nba.com/player/1628381/defense-dash/

尝试获取:

 `<table>
  <tbody>
    <!----><tr data-ng-repeat="(i, row) in page" index="0">
      <td class="player">Overall</td>
      <td>45</td>
      <td>45</td>
      <td>5.7</td>
      <td>12.3</td>
      <td>46.6</td>
      <td>100%</td>
      <td>46.7</td>
      <td>-0.1</td>
    </tr><!---->
  </tbody>
</table> `

我的编码:

 public static void getData(String url, String Name, int ID) throws 
IOException
{
    String html = Jsoup.connect(url).execute().body();
    html = html.replaceAll("<!---->", "");
    html = html.replaceAll("<!--", "");
    html = html.replaceAll("-->", "");
    Document doc = Jsoup.parse(html);
    Elements tableElements = doc.select("table");

    System.out.println("Elements " + tableElements);

    for (Element tableElement : tableElements)
    {
        String tableId = tableElement.id();
        if (tableId.isEmpty()) {
            continue;
    }
        String fileName = "table" + Name + tableId + ID + ".csv";
        System.out.println(fileName);
        FileWriter writer = new FileWriter(new File("C:\\Users\\noman\\eclipse-workspace\\Senior Project\\src\\", fileName));

        //System.out.println(doc);
        Elements tableRowElements = tableElement.select(":not(thead) tr td");

        for (int i = 0; i < tableRowElements.size(); i++) {
            Element row = tableRowElements.get(i);
            Elements rowItems = row.select("td");
            for (int j = 0; j < rowItems.size(); j++) {
                writer.append(rowItems.get(j).text());

                if (j != rowItems.size() - 1) {
                    writer.append(',');
                }
            }
            writer.append('\n');
        }

问题是找不到元素。相同的代码可以完美地在另一个站点上运行,这似乎在存储数据的方式上没有区别

此网站是否有其他功能可以阻止网络爬网?还是细微的差别?

请注意,提供的HTML代码是简化版本

1 个答案:

答案 0 :(得分:1)

如评论所述,要查找的数据是动态加载的,但是您可以通过此链接中的简单GET请求来获取它-
https://stats.nba.com/stats/playerdashptshotdefend?DateFrom=&DateTo=&GameSegment=&LastNGames=0&LeagueID=00&Location=&Month=0&OpponentTeamID=0&Outcome=&PORound=0&PerMode=PerGame&Period=0&PlayerID=1628381&Season=2018-19&SeasonSegment=&SeasonType=Regular+Season&TeamID=0&VsConference=&VsDivision=
编辑
为了找到此链接,我使用了浏览器的开发人员工具并检查了xhr个请求。
您可以看到该链接包含多个参数,其中playerID与初始链接中显示的数字相同。通过更改其值,您可以获得其他玩家的统计信息。