Question

我正在尝试清理数据集，在这样做时，我遇到了一个名为“production_companies”的列，其中包含大约1000个值。此列包含不必要的符号，例如：列值类似于此[{name: 'Pixar', id:"3}]。我希望删除不必要的符号，例如：“{} []，文本值”name“和”id“以及整数。

list1=[]

list1= data.production_companies

for i in list1:

    re.sub('\d+','',list1)

问题是re.sub不接受列表作为参数。它只接受一个字符串作为输入参数。我需要使用一个列表来存储production_companies值，并使用for循环遍历它，因为列中有很多值，我需要一次性删除所有这些符号和不必要的文本。

有人可以告诉我该怎么办？

非常感谢

Answer 1

您可以使用list comprehension从现有列表创建新列表。

list2 = [re.sub('\d+', '', item) for item in list1]

Python中的Re.sub（）不接受列表作为输入参数

1 个答案: