Beautifulsoup内容到字符串会引发UnicodeEncodeError

时间:2014-10-15 15:48:08

标签: python utf-8 beautifulsoup

我试图从BeautifulSoup标签内容中获取字符串。问题是它引发了UnicodeDecodeError:

    text = "".join(str(item).decode('unicode') for item in contents)
UnicodeEncodeError: 'ascii' codec can't encode character u'\u0160' in position 0: ordinal not in range(128)

这是我的代码:

contents = title.find_next_sibling('div','textNahlad').contents
text = ", ".join(str(item) for item in contents)

我尝试将其编码为utf-8但没有成功,我无法找出错误的地方。

问题在于,遗憾的是,item.encode('utf-8') /或解码不适用于此类对象。 item.text.encode不起作用,因为此对象没有文本属性。

你可以给我一个建议吗?感谢

编辑:

for content in contents:
     text += content.string does not work

0 个答案:

没有答案