这是我正在尝试检索电影类型的部分代码。
genres = tr.find('span', 'genre').find_all('a')
genres = [g.contents[0] for g in genres]
print genres
[u'Animation']
[u'Comedy']
[u'Comedy', u'Romance']
我想删除那些你的前缀。
期望的输出:
['Animation']
['Comedy']
['Comedy', 'Romance']
答案 0 :(得分:2)
u
表示这些字符串被编码为unicode。
如果你想删除它,你可以这样做:
genres = [str(g.contents[0]) for g in genres]
备注:强>
u
不是字符串的一部分,它只是表明它的编码,所以没有理由删除它。 答案 1 :(得分:2)
无需从字符串中实际删除unicode,但如果您仍在设置中,则可以使用map()或列表推导。
map(str, [u'Comedy', u'Romance'])
>> ['Comedy', 'Romance']
或列表comp
l = [str(x) for x in ['Comedy', 'Romance']]
答案 2 :(得分:1)
字符串中的前缀u
表示Unicode
>>> unicode("abc")
u'abc'
无需删除