使用bs4删除标记之外的文本

时间:2018-01-28 03:49:05

标签: python python-3.x beautifulsoup

我想删除文字Página consultada el:,但我不知道如何,因为它超出任何标记。

我已经尝试过但没有改变:

for b in soup.find('br'):
    if( b.nextSibling == 'Página consultada el:'):
        b.nextSibling.replaceWith('')
    if(b.previousSibling  == 'Página consultada el:'):
        b.previousSibling.replaceWith('')

这是我要删除的部分的html:

<br/>
<br/>Página consultada el:
<br/>
<strong>27/01/2018 21:42:14</strong>

整个HTML:

&#13;
&#13;
<html xmlns="http://www.w3.org/1999/xhtml">

<body><strong></strong>
  <center><strong></strong>

    <br/><br/><br/><br/>
    <center>
    </center>
    <table border="1" cellpadding="0" cellspacing="0" style="width:400px">
      <tbody>
        <tr>
          <td align="CENTER">
            <p>Turno: Matutino</p>
          </td>
          <td align="CENTER"> Grupo: 401 </td>
        </tr>
        <tr>
          <td align="CENTER" colspan="2">
            <p>Profesor tutor: <br/> MONICA OSORNIO PEREZ.</p>
          </td>
        </tr>
      </tbody>
    </table>
    <br/><br/>
    <table border="1" cellpadding="0" cellspacing="0" style="width:1000px">
      <tbody>
        <tr>
          <td align="CENTER" style="width:70px;">
            <p>Hora:</p>
          </td>
          <td align="CENTER" style="width:186px;">Lunes </td>
          <td align="CENTER" style="width:186px;">Martes </td>
          <td align="CENTER" style="width:186px;">Miércoles </td>
          <td align="CENTER" style="width:186px;">Jueves </td>
          <td align="CENTER" style="width:186px;">Viernes </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>7:00<br/>a<br/>7:50</p>
          </td>
          <td align="CENTER">
            <p> ORI.EDU.IV(A): A204<br/></p>
          </td>
          <td align="CENTER">
            <p> MATEMAT. IV B108<br/></p>
          </td>
          <td align="CENTER">
            <p> LENG. ESP. B108<br/></p>
          </td>
          <td align="CENTER">
            <p> MATEMAT. IV B108<br/></p>
          </td>
          <td align="CENTER">
            <p> MATEMAT. IV B108<br/></p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>7:50<br/>a<br/>8:40</p>
          </td>
          <td align="CENTER">
            <p> INGLES IV(B): C303<br/>INGLES IV(A): C304<br/></p>
          </td>
          <td align="CENTER">
            <p> MATEMAT. IV B108<br/></p>
          </td>
          <td align="CENTER">
            <p> INGLES IV(B): C303<br/>INGLES IV(A): C304<br/></p>
          </td>
          <td align="CENTER">
            <p> MATEMAT. IV B108<br/></p>
          </td>
          <td align="CENTER">
            <p> INGLES IV(B): C303<br/>INGLES IV(A): C304<br/></p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>8:40<br/>a<br/>9:30</p>
          </td>
          <td align="CENTER">
            <p> LENG. ESP. B108<br/></p>
          </td>
          <td align="CENTER">
            <p> INFORMATICA CC2 <br/></p>
          </td>
          <td align="CENTER">
            <p> HISTORIA III B116<br/></p>
          </td>
          <td align="CENTER">
            <p> ORI.EDU.IV(B): A205<br/></p>
          </td>
          <td align="CENTER">
            <p> DIBUJO II(A): B-8 <br/>DIBUJO II(B): C101<br/></p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>9:30<br/>a<br/>10:20</p>
          </td>
          <td align="CENTER">
            <p> LENG. ESP. B108<br/></p>
          </td>
          <td align="CENTER">
            <p> GEOGRAFIA A102<br/></p>
          </td>
          <td align="CENTER">
            <p> FISICA III A303<br/></p>
          </td>
          <td align="CENTER">
            <p> GEOGRAFIA A102<br/></p>
          </td>
          <td align="CENTER">
            <p> DIBUJO II(A): B-8 <br/>DIBUJO II(B): C101<br/></p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>10:20<br/>a<br/>11:10</p>
          </td>
          <td align="CENTER">
            <p> HISTORIA III B108<br/></p>
          </td>
          <td align="CENTER">
            <p> INFORMATICA B108<br/></p>
          </td>
          <td align="CENTER">
            <p> FISICA III A303<br/></p>
          </td>
          <td align="CENTER">
            <p> FISICA III LACE<br/></p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>11:10<br/>a<br/>12:00</p>
          </td>
          <td align="CENTER">
            <p> LOGICA B108<br/></p>
          </td>
          <td align="CENTER">
            <p> LENG. ESP. B108<br/></p>
          </td>
          <td align="CENTER">
            <p> GEOGRAFIA A103<br/></p>
          </td>
          <td align="CENTER">
            <p> FISICA III LACE<br/></p>
          </td>
          <td align="CENTER">
            <p> LOGICA B108<br/></p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>12:00<br/>a<br/>12:50</p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> LENG. ESP. B108<br/></p>
          </td>
          <td align="CENTER">
            <p> LOGICA B108<br/></p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> HISTORIA III B108<br/></p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>12:50<br/>a<br/>13:40</p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>13:40<br/>a<br/>14:30</p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> ED FISICA IV GIM <br/></p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
        </tr>
        <tr>
          <td align="CENTER">
            <p>14:30<br/>a<br/>15:20</p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
          <td align="CENTER">
            <p> </p>
          </td>
        </tr>
      </tbody>
    </table><br/>
    <table border="1" cellpadding="0" cellspacing="0" style="width:1000px">
      <tbody>
        <tr>
          <td style="width:165px;">
            <p>Asignatura:</p>
          </td>
          <td style="width:335px;">Nombre del Profesor:</td>
          <td style="width:165px;">Asignatura:</td>
          <td style="width:335px;">Nombre del Profesor:</td>
        </tr>
        <tr>
          <td>
            <p>ORI.EDU.IV(A):</p>
          </td>
          <td>BECERRA ALCANTARA IVONNE </td>
          <td>
            <p>INGLES IV(B):</p>
          </td>
          <td>CARRILLO SANCHEZ JACOBO </td>
        </tr>
        <tr>
          <td>
            <p>LENG. ESP.</p>
          </td>
          <td>ESTRADA GASCA SCARLETT </td>
          <td>
            <p>FISICA III</p>
          </td>
          <td>FLORES FLORES ANA </td>
        </tr>
        <tr>
          <td>
            <p>HISTORIA III</p>
          </td>
          <td>GONZALEZ GARCIA ANGELICA ARACELI </td>
          <td>
            <p>DIBUJO II(A):</p>
          </td>
          <td>JIMENEZ GENCHI ERIKA PAOLA </td>
        </tr>
        <tr>
          <td>
            <p>LOGICA</p>
          </td>
          <td>NAVARRO LOZANO JULIANA V. </td>
          <td>
            <p>MATEMAT. IV</p>
          </td>
          <td>OLVERA PE¥A ALEJANDRO </td>
        </tr>
        <tr>
          <td>
            <p>GEOGRAFIA</p>
          </td>
          <td>OSORNIO PEREZ MONICA </td>
          <td>
            <p>ORI.EDU.IV(B):</p>
          </td>
          <td>PINEDA VALLEJO MARIA GABRIELA </td>
        </tr>
        <tr>
          <td>
            <p>INGLES IV(A):</p>
          </td>
          <td>REYES CRUZ KIMBERLY </td>
          <td>
            <p>ED FISICA IV</p>
          </td>
          <td>SANCHEZ LUGO EDGARDO JAIME </td>
        </tr>
        <tr>
          <td>
            <p>INFORMATICA</p>
          </td>
          <td>SOTOMAYOR GUERRA JUAN CARLOS </td>
          <td>
            <p>DIBUJO II(B):</p>
          </td>
          <td>VILLANUEVA VILCHIS MONICA EDITH </td>
        </tr>
        <tr>
          <td>
            <p></p>
          </td>
          <td></td>
          <td>
            <p></p>
          </td>
          <td></td>
        </tr>
      </tbody>
    </table>
    <br/><br/>Página consultada el:<br/><strong>27/01/2018 21:42:14</strong>
  </center>
</body>

</html>
&#13;
&#13;
&#13;

1 个答案:

答案 0 :(得分:0)

这可能会满足您的需求:

html = re.sub(r'</table>\n<br/><br/>.+<br/>', '</table>\n<br/><br/><br/>', html)

html删除了“Páginasensadaadael:”文本。