pyspark以特定格式创建数据框列

时间:2020-04-27 06:34:35

标签: python-3.x apache-spark-sql pyspark-dataframes

我有一个架构为

的数据框
df.printSchema
// root
//  |-- ID: string (nullable = false)
//  |-- data: string (nullable = false)
//  |-- fp: string (nullable = false)
//  |-- fc: string (nullable = false)
//  |-- tc: string (nullable = false)

我有一个字符串:

s = (fp, fc/tc recs)

我想通过替换每行中df中的值,使用字符串在df中添加新列

Ex: if dataframe values are as fp = 10, fc =100,tc =100 then new column should be like (10, 100/1000 recs). Each row of df will have different values for these.

可以更改字符串,因此根据字符串内容,需要通过用dataframe col值替换它们来创建new_col

试图实现通用解决方案

0 个答案:

没有答案