如何使用Jsoup从DIV中提取文本?

时间:2017-08-08 00:41:44

标签: android android-studio web-scraping jsoup

我正在尝试从主div类中的div类中提取文本。我尝试使用的代码片段的一个示例是:

例如

<div class="main">
  <div class="01"></div> 
  <div class="02"></div>
  <div class="03">
     <span class=""></span>
     <div class="content"> **TEXT TO EXTRACT** </div>
  </div> 
</div> 

我的代码:

Document doc = Jsoup.connet(url).get();
Elements title01 = doc.select("div.main > div > div > div");

txt01 = title01.text();

此代码不起作用。有什么问题?

1 个答案:

答案 0 :(得分:0)

解决方案非常简单:

Elements elements = doc.select("div.main div.content");

如果内容div不必在主div中,则可以改为:

Elements elements = doc.select("div.content");

为什么您的代码无法运作

  1. div.main每个div获得课程main
    CurrentCollection = {main}
  2. <div class="main"> 
     ......
    </div>
    
    1. > div搜索div.main div名儿童 CurrentCollection = {01,02,03}
    2.     <div class="01"></div> 
          <div class="02"></div>
          <div class="03">.....</div>
      
      1. > divCurrentCollection个孩子div分析了 <div class="content"> **TEXT TO EXTRACT** </div> 中的每个元素     CurrentCollection = {content}
      2. > div
        1. CurrentCollection搜索divint个孩子的每个元素 CurrentCollection = {}