使用JSoup从Google Play商店中获取应用名称

时间:2015-12-04 22:52:27

标签: java html parsing web-scraping jsoup

我正试图通过JSoup从Google Play商店获取该应用程序的名称。

例如,如果我想使用this app作为测试用例,我只想打印出来:

Hill Climb Racing

以下是我用来尝试获取应用名称的代码:

Document doc = Jsoup.connect(https://play.google.com/store/apps/details?id=com.fingersoft.hillclimb&hl=en).get();
Elements link = doc.select("h1.document-title");
System.out.println(link);

以下是我运行时打印出来的内容:

<h1 class="document-title" itemprop="name"> 
 <div>
  Hill Climb Racing
 </div> </h1>

我假设我非常接近,因为我实际上已经打出了“爬坡赛车”,但是那里还有其他不受欢迎的信息。我不知道如何最好地捕获标题。

我考虑过做一个子串并捕捉

之间的内容
<div> 

</div>

但是每次因为应用程序具有不同的长度名称而必须计算,因此子串长度每次都会不同。

如果有人知道更好的方法来捕获所需的信息(或者我是在正确的轨道上),我将非常感谢任何帮助。

谢谢, 千斤顶

1 个答案:

答案 0 :(得分:0)

由于linkElements toString的结果(println调用的方法),因此会显示从DOM中选择的元素。

如果您想查看由这些元素生成的文本,请使用text()方法。

System.out.println(link.text()); 
//          add this---^^^^^^^