Question

这里是python和BS的新手，我正在尝试从html表中获取一些数据。我的问题是，当我获得带有所有url数据的汤对象时，当文本开始在字符之间变得明显隔开/分页时，似乎可以很好地解析所有内容。我无法显示正在扫描的所有数据，但这是好数据的一部分，而坏数据的末尾有很多空白。

</tr>
<tr>
 <td align="right">
  <b>
   <a name="14">
    #14
   </a>
  </b>
 </td>
 <td style="border-bottom:solid black medium;border-left:sol" valign="bottom">
  i   d       b   l   a   c   k       m   e   d   i   u   m   '       &gt;   N   e   w   m   a   n   ,   R   i   l   e   y   /   t   d   &gt;       t   d       s   t   y   l   e   =   '   b   o   r   d   e   r   -   b   o   t   t   o   m   :   s   o   l   i   d       b   l   a   c   k       m   e   d   i   u   m   '       &gt;   &amp;n   b   s   p   ;   /   t   d   &gt;       t   d   &gt;   /   t   d   &gt;       t   d       s   t   y   l   e   =   '   b   o   r   d   e   r   -   l   e   f   t   :   s   o   l   i   d       m   e   d   i   u   m       b   l   a   c   k   '       &gt;   &amp;n   b   s   p   ;   /   t   d   &gt;       t   d       s   t   y   l   e   =   '   b   o   r   d   e   r   -   l   e   f   t   :   s   o   l   i   d       m   e   d   i   u   m       b   l   a   c   k   '       &gt;

有什么想法可以防止这种情况发生吗？奇怪的是，它读取数据到一定程度为止。我找不到任何会触发html模式的变化。

为什么BeautifulSoup更改我的数据格式？

0 个答案: