这是来自WordPress帖子详细信息页面的汤:
content = soup.body.find('div', id=re.compile('post'))
title = content.h2.extract()
item['title'] = unicode(title.string)
item['content'] = u''.join(map(unicode, content.contents))
我想在分配div
时省略封闭的item['content']
标记。有没有办法在unicode中呈现标签的所有子标签?类似的东西:
item['content'] = content.contents.__unicode__()
这将为我提供一个unicode字符串而不是列表。
答案 0 :(得分:6)
你试过了吗?
unicode(content)
它将content
的标记转换为单个Unicode字符串。
编辑:如果您不想要封闭标记,请尝试:
content.renderContents()