在Python HTMLParser中跳过标记以检索数据

时间:2016-06-18 10:03:37

标签: python html

此问题与实用程序googler有关。

要检索摘要,目前我们使用:

def abstract_start(self, tag, attrs):
    if tag == 'span' and 'st' in self.classes(attrs):
    self.start_populating_textbuf()
    return 'abstract_text'

当数据格式为:

时,此方法正常
<span class="st"><em>3 hours</em> of some of the most relaxing music around, with added spa water sounds.<wbr> Ideal peaceful background ...</span>

但是,如果以下列格式接收数据(多个span标签,但数量固定):

<span class="st"><span class="f"><span class="nobr">10 Jun 2014</span> - <span class="nobr">179 min</span> - <span class="nobr">Uploaded by Meditation Relax Music</span></span>
                                                    <br><b>3 HOURS Best Relaxing Music</b> &#39;Romantic <b>Piano</b>&quot; Background <b>Music</b> for Stress ... 3:03 <b>...</b>
                                                    </span>

这不起作用。有没有办法跳过内部4 span标签(加上br标签)并检索数据:

<b>3 HOURS Best Relaxing Music</b> &#39;Romantic <b>Piano</b>&quot; Background <b>Music</b> for Stress ... 3:03 <b>...</b>

这是我们尝试进行优化所需的优化,其中以多span标记格式接收数据。非常感谢任何帮助。

我们可以进行多级span标记检查,但我们正在寻找更简单的内容,因为文本仍然属于封闭的<span class="st">

0 个答案:

没有答案