Question

我想解析具有许多平行
标签的html页面例如

<td>
  "a"
  <br>
  "b"
  <br>
  "c"
</td>

我想像这样单独存储这些数据 a = [“ a”]，b = [“ b”]，c = [“ c”]，且未附加任何标签。

什么是最好的方法？

Answer 1

我不知道您是否希望键的名称和结果字典的值相同。无论如何，如果您只想在<br>标记之间存储数据，则可以执行以下操作：

#!/usr/bin/python3
# coding: utf8

from bs4 import BeautifulSoup

text = """<td>
  "a"
  <br>
  "b"
  <br>
  "c"
</td>"""

soup = BeautifulSoup(text, 'html.parser')
td = soup.find('td')
result = []
for val in td.get_text().replace(' ','').split('\n'):
    if val:
        result.append(val)

然后print(result)将为您提供数据列表['"a"', '"b"', '"c"']

使用bs4解析html br标签

1 个答案: