如何在BeautifulSoup中以unicode呈现标记的内容?

时间:2009-05-09 12:38:38

标签: python xml web-applications screen-scraping beautifulsoup

这是来自WordPress帖子详细信息页面的汤:

content = soup.body.find('div', id=re.compile('post'))
title = content.h2.extract()
item['title'] = unicode(title.string)
item['content'] = u''.join(map(unicode, content.contents))

我想在分配div时省略封闭的item['content']标记。有没有办法在unicode中呈现标签的所有子标签?类似的东西:

item['content'] = content.contents.__unicode__()

这将为我提供一个unicode字符串而不是列表。

1 个答案:

答案 0 :(得分:6)

你试过了吗?

unicode(content)

它将content的标记转换为单个Unicode字符串。

编辑:如果您不想要封闭标记,请尝试:

content.renderContents()