我在用Java解析网页时遇到了问题

时间:2019-12-20 18:17:19

标签: java parsing jsoup

我想解析Google Play上的某些网页(例如this),以获取游戏的当前版本,总下载量等。我不是Java的新手,而是新手在解析中。我听到了有关JSOUP库的一些信息,并试图对其进行处理,但是遇到了问题。

似乎Google Play没有提供适当的HTML文档(页面源代码有点清晰)。我认为最初是页面正在加载,然后才使用JS,数据才加载到页面上。 div / span类具有相同的名称,而我得到的是这样的:

<span class="htlgb">December 16, 2019</span>
<span class="htlgb">20M</span>
<span class="htlgb">100,000+</span>
<span class="htlgb">1.5.7</span>
<span class="htlgb">4.0 and up</span>

怎么这样呢?有小费吗?我可以用JSOUP解决吗?

1 个答案:

答案 0 :(得分:0)

您只需要使解析器与网站保持最新即可。现在,您必须假设第一个span的类名是日期,第二个span的视图,第三个span的安装,等等。您可以得到一个类span的{​​{1}}元素列表,并根据它们的索引进行标识。

但是,如果您做出其他一些假设,则可以更加确定。例如,您可以知道哪个htlgb是日期,因为其文本将包含一个月(即12月)。