当我使用url_str = self.request.query_params.get('url')
type_str = self.request.query_params.get('type')
函数时,我遇到了一个问题。 findAll
函数无法正常工作,无法区分findAll
标记的结尾或找不到<td>
。它将所有html代码放入我定义的</td>
变量中。
有人可以帮忙吗?我把它的输出放在这里。
t1
输出:
t1 = soup.findAll('td',{'data': 'Text:'})
print('( Text: ',t1.text,' )')
如果工作正常,应该给我们这个输出。
( Text: helloworld * , hello: * . hiii * ;hello * ; </td>
<td id="dtt" datetime="2018-12-06T19:08:56Z" data="Summary:">world hello</td>
</tr>
我还应该注意到,这对于其他任何( Text: helloworld * , hello: * . hiii * ;hello * ; )
都可以正常使用,但仅对此<td>
来说,我有问题。我认为<td>
,*
或末尾的空格有误。您对此有何看法?
答案 0 :(得分:1)
您可以使用以下方法从脏输入中获得更清晰的解析结果:
soup = bs4.BeautifulSoup(html, 'lxml-xml')