Python:如何使用BeautifulSoup

时间:2016-03-28 12:51:22

标签: python html beautifulsoup html-parsing

这是我要处理的html文件:

<ul class="canTouch" data-com="hrefTo,href:'/movie/246286?_v_=yes'">
    <li class='c1'>
        <b>Important text</b>
        <br><em>useless text </em><em style="margin-left: .1rem">useless text</em>
    </li>
    <li class="c2 ">
        <b>938.6</b><br/>
    </li>
    <li class="c3 ">19.7%</li>
    <li class="c4 ">19.6%</li>
    <li class="c5 ">
        <span style="margin-right:-.1rem">8.6%</span>
        <span style="padding-right:.24rem" class="_more"></span>
    </li>
</ul>

文件中有许多ul个标签,这是我的代码:

for ul in soup.find_all('ul')[3:]:
lis=ul.find_all('li')
for elem in lis:
    records.append(elem.text.strip())

我不想在em的{​​{1}}标签中使用无用的文字,但我需要li标签中的重要文字:

b

我该怎么办?

1 个答案:

答案 0 :(得分:5)

这种变化将是微不足道的,取而代之的:

records.append(elem.text.strip())

使用:

records.append(elem.b.text.strip())