Question

我无法在下面的代码

中拆分unicode字符\ u2013

actualdata=metatry['content'].split("-")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+actualdata[0]
dat=actualdata[0].split("\u2013")
print "^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^"+dat[0]
productlist.append(dat[0])

即使它的存在，输出也没有摆脱\ u2013 如果有人帮助我，那会很有帮助。

Answer 1

尝试将'u'添加到'\u2013'，因为metatry['content']是一个unicode字符串：

u"Samsung Galaxy Note II \u2013 Latest Smartphone in India ".split(u'\u2013')

Answer 2

metatry['content']是unicode object，不是字符串。因此，split来电失败了：

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split("\u2013")
[u'Samsung Galaxy Note II \u2013 Latest Smartphone in India ']

您必须使用 unicode 字符\u2013将其拆分：

>>> s = u"Samsung Galaxy Note II \u2013 Latest Smartphone in India "
>>> s.split(u"\u2013")
[u'Samsung Galaxy Note II ', u' Latest Smartphone in India ']

PS：你说你和Beautiful Soup一起工作。 Beautiful Soup uses unicode strings only

拆分功能，用于拆分unicode字符

2 个答案: