我试图从BeautifulSoup标签内容中获取字符串。问题是它引发了UnicodeDecodeError:
text = "".join(str(item).decode('unicode') for item in contents)
UnicodeEncodeError: 'ascii' codec can't encode character u'\u0160' in position 0: ordinal not in range(128)
这是我的代码:
contents = title.find_next_sibling('div','textNahlad').contents
text = ", ".join(str(item) for item in contents)
我尝试将其编码为utf-8但没有成功,我无法找出错误的地方。
问题在于,遗憾的是,item.encode('utf-8')
/或解码不适用于此类对象。
item.text.encode
不起作用,因为此对象没有文本属性。
编辑:
for content in contents:
text += content.string does not work