我在做语言学项目(语言是马拉雅拉姆语)。
我的清单是
x= [u'1\u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200d', u'5\u0d05\u0d35\u0d28\u0d4d\u200d']
我想从列表中的每个项目中提取整数和unicodes。
预期输出
1 \u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200
5 \u0d05\u0d35\u0d28\u0d4d\u200d
首先我尝试将第一项x [0]转换为ascii
print unicodedata.normalize('NFKD',x[0]).encode('ascii','ignore')
输出为1。
我认为生成此输出是因为列表中的unicode用于malayalam。
然后我试图找到“\ u”的第一个索引,如
x[0].index("\u")
执行此操作时出错。
答案 0 :(得分:1)
字符序列\uXXXX
表示单个unicode字符,而不是字符串中的字符序列。
您可以按如下方式获得预期输出:
for i in x:
print int(i[0]), repr(i[1:])[2:-1]
(假设整数只有一位数)
对于更一般的情况,一种解决方案是使用正则表达式提取整数:
import re
for i in x:
s = re.match('([0-9]+)', i).group(1)
print int(s), repr(i[len(s):])[2:-1]
答案 1 :(得分:1)
>>> x= [u'1\u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200d', u'5\u0d05\u0d35\u0d28\u0d4d\u200d']
>>> res = [ (i[:1], i[1:]) for i in x ]
>>> res
[(u'1', u'\u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200d'), (u'5', u'\u0d05\u0d35\u0d28\u0d4d\u200d')]
>>> for i in res:
... print i[0], repr(i[1])
...
1 u'\u0d30\u0d3e\u0d2e\u0d28\u0d4d\u200d'
5 u'\u0d05\u0d35\u0d28\u0d4d\u200d'