Question

在PySpark中，我正在尝试清理数据集。一些列的值中包含不需要的字符（=“”）。我将数据集作为DataFrame读取，并且已经创建了一个用户定义函数，该函数可以成功删除字符，但是现在我正在努力编写一个脚本，该脚本可以标识需要在哪些列上执行UserDefinedFunction。我只使用数据集的最后一行，假设这些列始终包含相似的条目。

DataFrame（df）：

      id  value1   value2   value3    
="100010"     10       20    ="30"

在Python中，以下工作有效：

columns_to_fix = []    
for col in df:
    value = df[col][0]
    if type(value) == str and value.startswith('='):
        columns_to_fix.append(col)

我在PySpark中尝试了以下操作，但这会返回所有列名：

columns_to_fix = []    
for x in df.columns:
    if df[x].like('%="'):
        columns_to_fix.append(x)

所需的输出：

columns_to_fix: ['id', 'value3']

一旦列表中有列名，就可以使用for循环来修复列中的条目。我是PySpark的新手，如果这是一个太基本的问题，我深表歉意。提前非常感谢您的建议！

Answer 1

“假设列始终包含相似的条目，我仅使用数据集的最后一行。”在这种假设下，您可以收集一行并测试您要查找的字符是否在其中。

此外，请注意，您不需要udf来替换列中的=，可以使用regexp_replace。下面给出一个可行的示例，希望对您有所帮助！

import pyspark.sql.functions as F

df = spark.createDataFrame([['=123','456','789'], ['=456','789','123']], ['a', 'b','c'])
df.show()

# +----+---+---+
# |   a|  b|  c|
# +----+---+---+
# |=123|456|789|
# |=456|789|123|
# +----+---+---+

# list all columns with '=' in it.
row = df.limit(1).collect()[0].asDict()
columns_to_replace = [i for i,j in row.items() if '=' in j]

for col in columns_to_replace:
    df = df.withColumn(col, F.regexp_replace(col, '=', ''))

df.show()

# +---+---+---+
# |  a|  b|  c|
# +---+---+---+
# |123|456|789|
# |456|789|123|
# +---+---+---+

PySpark：根据值中的字符列出列名称

1 个答案: