使用JSOUP从缺少HTML的网站上抓取文本

时间:2019-04-24 04:02:29

标签: java jsoup

我有一个项目正在从一个网站上抓取HTML,但是现在我正在尝试另一个不包含HTML的网站,并且无法过滤要抓取的内容。

我正在使用JSOUP从网上抓取NHL统计信息,并将其放入自己的数据库中,最终可以在神经网络上使用(希望如此)。我能够从使用

之类的HTML的网站成功抓取数据
  

https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++

但是现在我发现了NHL API,它将为我提供更多信息,但是我在抓取此信息时遇到了麻烦。

例如。) https://statsapi.web.nhl.com/api/v1/game/2017021211/boxscore

该网站完全是文本,因此我无法过滤收到的内容。每次我尝试刮一下它时,我都会将整个文本放在一个大的主体中。我该如何准确刮取?我试图(至少)获得比赛中的球队以及每个球队的进球数。

我在HTML网站上所做的示例

Document tester = Jsoup
    .connect("https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++")
    .get();

Elements rows = tester.getElementsByTag("tr");

附带的代码成功地从HTML网站获得了所有统计信息,但是当我尝试使用NHL API进行操作时,我将整个网站正文放在一个字符串中。

0 个答案:

没有答案