我正在尝试对两个数据帧中的每一行应用pyspark sql函数哈希算法来识别差异。散列算法区分大小写.i.e。如果列包含'APPLE'并且'Apple'被视为两个不同的值,那么我想将两个数据帧的大小写更改为大写或更低。我只能实现数据帧标题,但不能实现数据帧值。请帮助
#Code for Dataframe column headers
self.df_db1 =self.df_db1.toDF(*[c.lower() for c in self.df_db1.columns])
答案 0 :(得分:4)
假设df
是您的数据框,这应该可以完成工作:
from pyspark.sql import functions as F
for col in df.columns:
df = df.withColumn(col, F.lower(F.col(col)))
答案 1 :(得分:3)
您可以使用列表推导生成表达式:
from pyspark.sql import functions as psf
expression = [ psf.lower(psf.col(x)).alias(x) for x in df.columns ]
然后只需在现有数据框上调用它
>>> df.show()
+---+---+---+---+
| c1| c2| c3| c4|
+---+---+---+---+
| A| B| C| D|
+---+---+---+---+
>>> df.select(*select_expression).show()
+---+---+---+---+
| c1| c2| c3| c4|
+---+---+---+---+
| a| b| c| d|
+---+---+---+---+
答案 2 :(得分:3)
两个答案似乎没有问题,只有一个例外 - 如果您有数字列,它将被转换为字符串列。为避免这种情况,请尝试:
import org.apache.spark.sql.types._
import org.apache.spark.sql.functions._
val fields = df.schema.fields
val stringFields = df.schema.fields.filter(f => f.dataType == StringType)
val nonStringFields = df.schema.fields.filter(f => f.dataType != StringType).map(f => f.name).map(f => col(f))
val stringFieldsTransformed = stringFields .map (f => f.name).map(f => upper(col(f)).as(f))
val df = sourceDF.select(stringFieldsTransformed ++ nonStringFields: _*)
现在,当你有非字符串字段,即数字字段时,类型也是正确的。 如果您知道每列都是String类型,请使用其他答案之一 - 在这种情况下它们是正确的:)
PySpark中的Python代码:
from pyspark.sql.functions import *
from pyspark.sql.types import *
sourceDF = spark.createDataFrame([(1, "a")], ['n', 'n1'])
fields = sourceDF.schema.fields
stringFields = filter(lambda f: isinstance(f.dataType, StringType), fields)
nonStringFields = map(lambda f: col(f.name), filter(lambda f: not isinstance(f.dataType, StringType), fields))
stringFieldsTransformed = map(lambda f: upper(col(f.name)), stringFields)
allFields = [*stringFieldsTransformed, *nonStringFields]
df = sourceDF.select(allFields)