使用bs4解析html br标签

时间:2019-02-18 08:31:01

标签: beautifulsoup web-crawler

我想解析具有许多平行
标签的html页面 例如

<td>
  "a"
  <br>
  "b"
  <br>
  "c"
</td>

我想像这样单独存储这些数据 a = [“ a”],b = [“ b”],c = [“ c”],且未附加任何标签。

什么是最好的方法?

1 个答案:

答案 0 :(得分:0)

我不知道您是否希望键的名称和结果字典的值相同。 无论如何,如果您只想在<br>标记之间存储数据,则可以执行以下操作:

#!/usr/bin/python3
# coding: utf8

from bs4 import BeautifulSoup

text = """<td>
  "a"
  <br>
  "b"
  <br>
  "c"
</td>"""

soup = BeautifulSoup(text, 'html.parser')
td = soup.find('td')
result = []
for val in td.get_text().replace(' ','').split('\n'):
    if val:
        result.append(val)

然后print(result)将为您提供数据列表['"a"', '"b"', '"c"']