我有一个JSON文件,我将其转换为字符串以删除HTML标记,但该函数返回unicode值,如下所示:
[u'', u'', u'', u'c', u'i', u's', u' ', u'b', u'y', u' ', u'd', u'e', u'l', u'o', u'i', u't', u't', u'e', u'']
我想通过deloitte 从上面的输出 cis中提取单词。让我知道如何解决这个问题。我尝试过的代码如下所示:
def cleaning_data(input_json_data):
jd = input_json_data['description']
jd = [x.lower() for x in jd]
jd = str(jd)
jd = re.sub('<[^>]*>', '', jd)
print jd
答案 0 :(得分:1)
如果是列表,只需将列表中的元素加入空字符串即可。
a = [u'', u'', u'', u'c', u'i', u's', u' ', u'b', u'y', u' ', u'd', u'e', u'l', u'o', u'i', u't', u't', u'e', u'']
print(''.join(a))
如果它不是一个列表并且是一个字符串,那么你可以像这样首先评估它:
from ast import literal_eval
a = """[u'', u'', u'', u'c', u'i', u's', u' ', u'b', u'y', u' ', u'd', u'e', u'l', u'o', u'i', u't', u't', u'e', u'']"""
a = literal_eval(a)
print(''.join(a))
输出:
u'cis by deloitte'