Question

这是我要处理的html文件：

<ul class="canTouch" data-com="hrefTo,href:'/movie/246286?_v_=yes'">
    <li class='c1'>
        <b>Important text</b>
        <br><em>useless text </em><em style="margin-left: .1rem">useless text</em>
    </li>
    <li class="c2 ">
        <b>938.6</b><br/>
    </li>
    <li class="c3 ">19.7%</li>
    <li class="c4 ">19.6%</li>
    <li class="c5 ">
        <span style="margin-right:-.1rem">8.6%</span>
        <span style="padding-right:.24rem" class="_more"></span>
    </li>
</ul>

文件中有许多ul个标签，这是我的代码：

for ul in soup.find_all('ul')[3:]:
lis=ul.find_all('li')
for elem in lis:
    records.append(elem.text.strip())

我不想在em的{{1}}标签中使用无用的文字，但我需要li标签中的重要文字：

我该怎么办？

Answer 1

这种变化将是微不足道的，取而代之的：

records.append(elem.text.strip())

使用：

records.append(elem.b.text.strip())

Python：如何使用BeautifulSoup

1 个答案: