这是我要处理的html文件:
<ul class="canTouch" data-com="hrefTo,href:'/movie/246286?_v_=yes'">
<li class='c1'>
<b>Important text</b>
<br><em>useless text </em><em style="margin-left: .1rem">useless text</em>
</li>
<li class="c2 ">
<b>938.6</b><br/>
</li>
<li class="c3 ">19.7%</li>
<li class="c4 ">19.6%</li>
<li class="c5 ">
<span style="margin-right:-.1rem">8.6%</span>
<span style="padding-right:.24rem" class="_more"></span>
</li>
</ul>
文件中有许多ul
个标签,这是我的代码:
for ul in soup.find_all('ul')[3:]:
lis=ul.find_all('li')
for elem in lis:
records.append(elem.text.strip())
我不想在em
的{{1}}标签中使用无用的文字,但我需要li
标签中的重要文字:
b
我该怎么办?
答案 0 :(得分:5)
这种变化将是微不足道的,取而代之的:
records.append(elem.text.strip())
使用:
records.append(elem.b.text.strip())