我正在尝试清理数据集,在这样做时,我遇到了一个名为“production_companies”的列,其中包含大约1000个值。此列包含不必要的符号,例如:列值类似于此[{name: 'Pixar', id:"3}]
。
我希望删除不必要的符号,例如:“{} [],文本值”name“和”id“以及整数。
list1=[]
list1= data.production_companies
for i in list1:
re.sub('\d+','',list1)
问题是re.sub
不接受列表作为参数。它只接受一个字符串作为输入参数。
我需要使用一个列表来存储production_companies
值,并使用for循环遍历它,因为列中有很多值,我需要一次性删除所有这些符号和不必要的文本。
有人可以告诉我该怎么办?
非常感谢
答案 0 :(得分:1)
您可以使用list comprehension从现有列表创建新列表。
list2 = [re.sub('\d+', '', item) for item in list1]