我正在寻找建议,因为我是python的新手。
让我们假设我有多个类似于以下数据块的数据块:
<td>
<a href="address.com" title=title">some title</a>
<br />
aaa<br />
bbb<br />
ccc</td>
有时br的数量不同,并且对于所有块都不是常数。
我的目的是从td块内部提取数据到文件但是我卡在这里。
这里的正则表达式是最好的方法吗?
提前谢谢。
答案 0 :(得分:5)
使用像BeautifulSoup(pip install beautifulsoup4
)这样的HTML解析器解析HTML:
from bs4 import BeautifulSoup
html = """
<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>
"""
soup = BeautifulSoup(html)
for td in soup.find_all('td'):
print(td.get_text())
结果:
some title aaa bbb ccc