Jsoup wiki scraper我如何获得目录框

时间:2014-03-12 16:05:14

标签: java web-scraping jsoup

我在浏览wiki上的目录时遇到问题。我正在为个人项目制作一个简单的Web scraper,我无法弄清楚如何抓取这些数据。

这是我尝试从任何给定的Wiki页面中删除目录

 String contentOver = doc.select("#toclimit-3 > li").first().text();

这里是我要抓的页面代码,我怎么才能得到“年表”这个词?:

    <ul> 
    <li class="toclevel-1 tocsection-1"><a href="#Chronology"><span class="tocnumber">1</span> <span class="toctext">Chronology</span></a></li>

1 个答案:

答案 0 :(得分:1)

您可以通过班级名称获取它:

 Element li = doc.select("#toclimit-3 > li").first();
 String result = li.select(".toctext").first().text();