Question

我有一个项目正在从一个网站上抓取HTML，但是现在我正在尝试另一个不包含HTML的网站，并且无法过滤要抓取的内容。

我正在使用JSOUP从网上抓取NHL统计信息，并将其放入自己的数据库中，最终可以在神经网络上使用（希望如此）。我能够从使用

之类的HTML的网站成功抓取数据

https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++

但是现在我发现了NHL API，它将为我提供更多信息，但是我在抓取此信息时遇到了麻烦。

例如。） https://statsapi.web.nhl.com/api/v1/game/2017021211/boxscore

该网站完全是文本，因此我无法过滤收到的内容。每次我尝试刮一下它时，我都会将整个文本放在一个大的主体中。我该如何准确刮取？我试图（至少）获得比赛中的球队以及每个球队的进球数。

我在HTML网站上所做的示例

Document tester = Jsoup
    .connect("https://sportsdatabase.com/nhl/query?output=default&sdql=goals%2C+margin%2C+date+%40+team%3DBlue+Jackets&submit=++S+D+Q+L+%21++")
    .get();

Elements rows = tester.getElementsByTag("tr");

附带的代码成功地从HTML网站获得了所有统计信息，但是当我尝试使用NHL API进行操作时，我将整个网站正文放在一个字符串中。

使用JSOUP从缺少HTML的网站上抓取文本

0 个答案: