Question

我有一个JSON文件，我将其转换为字符串以删除HTML标记，但该函数返回unicode值，如下所示：

[u'', u'', u'', u'c', u'i', u's', u' ', u'b', u'y', u' ', u'd', u'e', u'l', u'o', u'i', u't', u't', u'e', u'']

我想通过deloitte 从上面的输出 cis中提取单词。让我知道如何解决这个问题。我尝试过的代码如下所示：

def cleaning_data(input_json_data): jd = input_json_data['description'] jd = [x.lower() for x in jd] jd = str(jd) jd = re.sub('<[^>]*>', '', jd) print jd

Answer 1

如果是列表，只需将列表中的元素加入空字符串即可。

a = [u'', u'', u'', u'c', u'i', u's', u' ', u'b', u'y', u' ', u'd', u'e', u'l', u'o', u'i', u't', u't', u'e', u'']
print(''.join(a))

如果它不是一个列表并且是一个字符串，那么你可以像这样首先评估它：

from ast import literal_eval

a = """[u'', u'', u'', u'c', u'i', u's', u' ', u'b', u'y', u' ', u'd', u'e', u'l', u'o', u'i', u't', u't', u'e', u'']"""
a = literal_eval(a)
print(''.join(a))

输出：

u'cis by deloitte'

Python - 用空格分隔的字符

1 个答案: