我想解析具有许多平行
标签的html页面
例如
<td>
"a"
<br>
"b"
<br>
"c"
</td>
我想像这样单独存储这些数据 a = [“ a”],b = [“ b”],c = [“ c”],且未附加任何标签。
什么是最好的方法?
答案 0 :(得分:0)
我不知道您是否希望键的名称和结果字典的值相同。
无论如何,如果您只想在<br>
标记之间存储数据,则可以执行以下操作:
#!/usr/bin/python3
# coding: utf8
from bs4 import BeautifulSoup
text = """<td>
"a"
<br>
"b"
<br>
"c"
</td>"""
soup = BeautifulSoup(text, 'html.parser')
td = soup.find('td')
result = []
for val in td.get_text().replace(' ','').split('\n'):
if val:
result.append(val)
然后print(result)
将为您提供数据列表['"a"', '"b"', '"c"']