Question

此问题与实用程序googler有关。

要检索摘要，目前我们使用：

def abstract_start(self, tag, attrs):
    if tag == 'span' and 'st' in self.classes(attrs):
    self.start_populating_textbuf()
    return 'abstract_text'

当数据格式为：

时，此方法正常

<span class="st"><em>3 hours</em> of some of the most relaxing music around, with added spa water sounds.<wbr> Ideal peaceful background ...</span>

但是，如果以下列格式接收数据（多个span标签，但数量固定）：

<span class="st"><span class="f"><span class="nobr">10 Jun 2014</span> - <span class="nobr">179 min</span> - <span class="nobr">Uploaded by Meditation Relax Music</span></span>
                                                    <br><b>3 HOURS Best Relaxing Music</b> &#39;Romantic <b>Piano</b>&quot; Background <b>Music</b> for Stress ... 3:03 <b>...</b>
                                                    </span>

这不起作用。有没有办法跳过内部4 span标签（加上br标签）并检索数据：

<b>3 HOURS Best Relaxing Music</b> &#39;Romantic <b>Piano</b>&quot; Background <b>Music</b> for Stress ... 3:03 <b>...</b>

这是我们尝试进行优化所需的优化，其中以多span标记格式接收数据。非常感谢任何帮助。

我们可以进行多级span标记检查，但我们正在寻找更简单的内容，因为文本仍然属于封闭的<span class="st">。

在Python HTMLParser中跳过标记以检索数据

0 个答案: