Question

当我使用url_str = self.request.query_params.get('url') type_str = self.request.query_params.get('type')函数时，我遇到了一个问题。 findAll函数无法正常工作，无法区分findAll标记的结尾或找不到<td>。它将所有html代码放入我定义的</td>变量中。有人可以帮忙吗？我把它的输出放在这里。

t1

输出：

t1 = soup.findAll('td',{'data': 'Text:'})
print('( Text:   ',t1.text,' )')

如果工作正常，应该给我们这个输出。

( Text:    helloworld  * , hello:  * . hiii * ;hello * ; </td>
      <td id="dtt" datetime="2018-12-06T19:08:56Z" data="Summary:">world hello</td>
      </tr>

我还应该注意到，这对于其他任何( Text: helloworld * , hello: * . hiii * ;hello * ; )都可以正常使用，但仅对此<td>来说，我有问题。我认为<td>，*或末尾的空格有误。您对此有何看法？

Answer 1

您可以使用以下方法从脏输入中获得更清晰的解析结果：

    soup = bs4.BeautifulSoup(html, 'lxml-xml')

findAll-beautifulsoup-python无法正常工作

1 个答案: