如何使用python转换html数据

时间:2013-06-09 19:08:23

标签: python extract

我正在寻找建议,因为我是python的新手。

让我们假设我有多个类似于以下数据块的数据块:

<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>

有时br的数量不同,并且对于所有块都不是常数。

我的目的是从td块内部提取数据到文件但是我卡在这里。

这里的正则表达式是最好的方法吗?

提前谢谢。

1 个答案:

答案 0 :(得分:5)

使用像BeautifulSoup(pip install beautifulsoup4)这样的HTML解析器解析HTML:

from bs4 import BeautifulSoup

html = """
<td> <a href="address.com" title=title">some title</a> <br /> aaa<br /> bbb<br /> ccc</td>
"""

soup = BeautifulSoup(html)

for td in soup.find_all('td'):
    print(td.get_text())

结果:

 some title  aaa bbb ccc