我不知道如何使用beautifulSoup从非关闭标签获取文本

时间:2016-08-04 07:29:02

标签: python-3.x beautifulsoup

<hr class="calibre2" />
<h3 class="calibre5">-ibility</h3> (in nouns 构成名词) : <br      
class="calibre4" />
<blockquote class="calibre6"><p class="calibre_1"><span class="italic">◊ 
capability 能力 </span></p></blockquote>

<blockquote class="calibre6"><p class="calibre_1"><span class="italic">◊ 
responsibility 责任 </span></p></blockquote>

<hr class="calibre2" />

<h3 id="calibre_link-1" class="calibre5">-able</h3> □<span 
class="bold"><span class="italic"><span class="calibre_2"> suffix</span>
</span></span> (in adjectives 构成形容词) <br class="calibre4" />

 <span class="bold">『1』</span>that can or must be 可…的;能…的;应…的 :  
 <br class="calibre4" />

 <blockquote class="calibre6"><p class="calibre_1"><span 
 class="italic">◊ calculable 能计算的 </span></p></blockquote>


 <blockquote class="calibre6"><p class="calibre_1"><span   
 class="italic">◊ taxable 应纳税的 </span></p></blockquote>


 <span class="bold">『2』</span>having the quality of 具有…性质的 : <br 
 class="calibre4" />

 <span class="bold"><span class="calibre_3">-ability, -ibility </span>
 </span>

 <hr class="calibre2" />
 <h3 class="calibre5">-ible</h3> □<span class="bold"><span 
 class="italic"><span class="calibre_2"> suffix</span></span></span> (in 
 adjectives 构成形容词) <br class="calibre4" />

 <blockquote class="calibre6"><p class="calibre_1"><span 
 class="italic">◊ comfortable 舒适 </span></p></blockquote>

 <blockquote class="calibre6"><p class="calibre_1"><span 
  class="italic">◊ changeable 易变 </span></p></blockquote>
  <span class="bold"><span class="calibre_3">-ability, -ibility </span>
  </span>
  <hr class="calibre2" />
  <h3 class="calibre5">-acy</h3> ⇒ <span class="bold"><a    
  href="#calibre_link-3">-cy</a></span>
  <br class="calibre4" /> □<span class="bold"><span  
  class="italic"><span     class="calibre_2"> suffix</span></span>  
  </span> 

  <blockquote class="calibre6"><p class="calibre_1"><span 
  class="italic">◊ chaplaincy 专职司铎的职位 </span></p></blockquote>


  <hr class="calibre2" />

  <h3 class="calibre5">-age</h3> □<span class="bold"><span 
  class="italic"><span class="calibre_2"> suffix</span></span></span> 
  (in nouns 构成名词) <br class="calibre4" />

上面的代码是我使用Calibre从英文字典转换为html,然后提取到html,但他们只添加了一些非关闭标记,正如你所看到的,<hr class = 'calibre2'>... <hr class = 'calibre2'>内容是我需要的,就像:我想得到:(单词:含义:),h3里面是单词,很容易使用beautifulsoup.findall('h3').text,现在我知道如何在<hr>.. <hr>内容之间获取,但只有内容,我不知道如何只获得文字。因为<hr>不是一个关闭标记,所以我不能直接使用tag.text来获取。 所以,我想也许我可以使用wrap或new_tag,但似乎不适合我,也许我滥用它们,我想在2标签之间添加<div class= num> ......所以我可以直接得到它。并使用tag.text来获取它们。 谢谢。

0 个答案:

没有答案