无法提取 br 文本(beautifulSoup)python 网页抓取

时间:2021-02-24 18:31:39

标签: python web-scraping

我试图从最后“br”中的以下 html 源中提取地址,但我无法提取并且不知道要提供什么作为属性。我正在使用下面的代码来提取地址,但它没有按预期工作。非常感谢任何帮助。

编辑:我复制了下面代码中缺失的部分。

完整源代码:

[<div class="card dl">
 <span id="section-1"></span>
 <div class="card-header pb-1 px-1"><!-- Betriebsname -->
 <h3 class="card-title mb-0">
 <!-- <img src="https://www.tk-aerztefuehrer.de/TK/images/EntryType_person1.svg" alt=" " /> &nbsp;-->Praxis Dr. Christina Balduhn </h3>
 <!-- ***** HINWEIS PRIVAT ***** -->
 <!-- ************************** -->
 </div>
 <div class="card-body px-1"><!--  panel-body - einzelne Eintrag anfang   -->
 <div class="row">
 <div class="col-sm-5">
 <strong><a href="https://www.tk-aerztefuehrer.de/TK/Suche_SN/index.js?a=DD&amp;sid=&amp;e_id=830057&amp;Db=" style="text-decoration:underline;" title="Details zum Eintrag ansehen">Frau Dr. med. Christina Balduhn</a></strong>
 <br/><span style="color:#666;">Fachärztin für Allgemeinmedizin</span>
 <!--  ********
 <br /><br><span style="color:#7fb7c4; font-weight:700;">Praxis jetzt geöffnet</span>
 
 
 
 <p class="mt-3">Telefon: <a href="tel:+4952531717" class="it">0 52 53 / 17 17</a></p>
 
 **********  -->
 <br/>
 <!-- Fachgebiet:<br>Allgemeinmedizin<br><br />  -->
 <!-- ********* ArztImage Neu ******* -->
 <!-- ************** ArztImage Neu e ************* -->
 </div><!--  #sm-5 end  -->
 <div class="col-sm-4">
 <!--  ***********************************************  -->
 <div class="d-none d-md-block">
 <a class="btn btn-outline-secondary arrow-r" href="https://www.tk-aerztefuehrer.de/TK/Suche_SN/index.js?a=DD&amp;sid=&amp;e_id=830057&amp;Db=" title="Zur Detailseite">Zur Detailseite</a>
 <!-- OTB Termin finden desktop  **** -->
 <!-- ***  -->
 </div>
 <!-- <img class="mapicons" src="https://www.tk-aerztefuehrer.de/TK/images/GoogleImages/A.png" alt=" " /><br>  -->
 <!--  *********
 <br>
 <img src="https://www.tk-aerztefuehrer.de/TK/img/entfernung.svg" alt=" " />  0.2 km<br />
 <br>
 
 
 
 Tegelhof 1<br />
 33014 Bad Driburg<br />
 <br />
 *********  -->
 <p class="show-xs show sm"></p>
 </div><!--  #sm-4 end  -->
 <div class="col-sm-3">
 <!-- ###################################################
 <div>
 <a class="btn btn-primary" title="Details zum Eintrag ansehen" href="">Details zum Eintrag</a>
 </div>
 
 <div style="margin:1em 0;">
 <a class="btn btn-default" title="Bewertung geben" href="https://www.tk-aerztefuehrer.de/TK/Arzt-Auskunft/Suche_SN/index.js?a=FR&e_id=830057&db=">Bewertung geben</a>
 </div>
 
 
 <span class="empf-0" title="Noch keine Bewertung(en) vorhanden">&nbsp;0 Bewertung(en)</span>
 ############################
 
 <div style="margin: 0 0 1em 0;">
 <a style="width:70%;" class="btn btn-primary" title="Bewertung geben" href="https://www.tk-aerztefuehrer.de/TK/Suche_SN/index.js?a=FR&e_id=830057&db=">Bewertung geben <i class="fa fa-angle-right" style="padding-left:1.1em;"></i></a>
 </div>
 
 ################################################  -->
 <!-- Bewertungstatus (1-5 Punkte)  -->
 <img src="https://www.tk-aerztefuehrer.de/TK/img/rategrade-0.png" title="Keine Bewertungen vorhanden"/>
 <br/>
 <span class="empf-0" title="Noch keine Bewertung(en) vorhanden">0 Bewertung(en)</span>
 <!--  ***********************  OTB  ******************
 ******************************************  -->
 </div><!-- sm-3 end -->
 </div><!--   end row -->
 <div class="row"><!-- Eintrag End - Abstand zw. Einträge -->
 <div class="col-sm-12">
 <!--  ************  OTV  *************  -->
 <!--  ******** 
 <!--  ************  OTV e  *************  -->
 </div><!-- sm-12 end -->
 </div><!--   end row  -->
 <!--  2020 A  -->
 <!--     ###########  Row 2 ################# -->
 <div class="row">
 <div class="col-sm-5 py-2">
 <br/><span style="color:#7fb7c4; font-weight:600;">Praxis jetzt geöffnet</span>
 <p class="mt-5 d-none d-md-block">Telefon: <a class="it" href="tel:+4952531717">0 52 53 / 17 17</a></p>
 </div><!-- sm-5 end -->
 <div class="col-sm-4 pt-2">
 <!-- <img class="mapicons" src="https://www.tk-aerztefuehrer.de/TK/images/GoogleImages/A.png" alt=" " /><br>  -->
 <br/>
 <img alt=" " src="https://www.tk-aerztefuehrer.de/TK/img/entfernung.svg"/>  0.2 km<br/>
 <span class="pt-3 d-none d-md-block"></span>
 Tegelhof 1<br/>
 33014 Bad Driburg<br/>
 </div><!-- sm-4 end -->
 <div class="col-sm-3">
 </div><!-- sm-3 end -->
 </div><!--   end row  -->

1 个答案:

答案 0 :(得分:0)

您发布的 html 已损坏。您在不完整的评论中有 html 标签。