将html源码转换为python中的字符串

时间:2014-09-14 20:14:02

标签: python string beautifulsoup

我正在使用BeautifulSoup解析网站的来源,然后从中取出块。目标是能够连接这些部分,然后通过电子邮件发送给自己。

我的问题是我无法连接这些项目,因为它们是标签形式。如何将它们转换为字符串?

例如,我怎样才能将下面的内容转换为python字符串对象,或者我怎样才能将它们打包在三引号周围(""")?它目前会给我一个语法错误。

<td align="left" class="table-2">Date</td>
<td align="left" class="table-2">Item</td>

感谢您的帮助。

1 个答案:

答案 0 :(得分:0)

如果您有BeautifulSoup标记对象,可以通过调用str将其转换为字符串:

str(tag)

In [120]: import bs4 as bs

In [121]: soup = bs.BeautifulSoup('<td align="left" class="table-2">Date</td>')

In [122]: tag = soup.find('td')

In [123]: type(tag)
Out[123]: bs4.element.Tag

In [124]: str(tag)
Out[124]: '<td align="left" class="table-2">Date</td>'