我有一个项目正在从一个网站上抓取HTML,但是现在我正在尝试另一个不包含HTML的网站,并且无法过滤要抓取的内容。
我正在使用JSOUP从网上抓取NHL统计信息,并将其放入自己的数据库中,最终可以在神经网络上使用(希望如此)。我能够从使用
之类的HTML的网站成功抓取数据但是现在我发现了NHL API,它将为我提供更多信息,但是我在抓取此信息时遇到了麻烦。
例如。) https://statsapi.web.nhl.com/api/v1/game/2017021211/boxscore
该网站完全是文本,因此我无法过滤收到的内容。每次我尝试刮一下它时,我都会将整个文本放在一个大的主体中。我该如何准确刮取?我试图(至少)获得比赛中的球队以及每个球队的进球数。
我在HTML网站上所做的示例
Document tester = Jsoup
.connect("https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++")
.get();
Elements rows = tester.getElementsByTag("tr");
附带的代码成功地从HTML网站获得了所有统计信息,但是当我尝试使用NHL API进行操作时,我将整个网站正文放在一个字符串中。