PySpark:TypeError:'str'对象在数据框操作中不可调用

时间:2019-08-29 07:29:10

标签: python pyspark pyspark-dataframes

我正在循环读取文件夹中的文件,并从中创建数据帧。 但是,我收到了这个奇怪的错误TypeError: 'str' object is not callable。 请在此处找到代码:

for yr in range (2014,2018):
  cat_bank_yr = sqlCtx.read.csv(cat_bank_path+str(yr)+'_'+h1+'bank.csv000',sep='|',schema=schema)
  cat_bank_yr=cat_bank_yr.withColumn("cat_ledger",trim(lower(col("cat_ledger"))))
  cat_bank_yr=cat_bank_yr.withColumn("category",trim(lower(col("category"))))

代码运行一次迭代,然后在行

处停止
cat_bank_yr=cat_bank_yr.withColumn("cat_ledger",trim(lower(col("cat_ledger")))) 

出现上述错误。

有人可以帮忙吗?

2 个答案:

答案 0 :(得分:2)

您的代码看起来不错-如果错误确实发生在您所说的行中,那么您可能不小心用字符串覆盖了PySpark函数之一。

要对此进行检查,请将以下行直接置于for循环上方,然后查看代码现在是否在运行时没有错误:

from pyspark.sql.functions import col, trim, lower

或者,再次检查代码是否真的停在了您所说的行中,或者通过像这样调用它们来检查col,trim,lower是否符合您的期望:

col

应该返回

  

function pyspark.sql.functions._create_function ..__(col)

答案 1 :(得分:0)

在导入部分中,使用:

from pyspark.sql import functions as F

然后在使用col的代码中使用F.col,这样您的代码将是:

# on top/header part of code 
from pyspark.sql import functions as F
    
for yr in range (2014,2018):
    cat_bank_yr = sqlCtx.read.csv(cat_bank_path+str(yr)+'_'+h1+'bank.csv000',sep='|',schema=schema)
    cat_bank_yr=cat_bank_yr.withColumn("cat_ledger",trim(lower(F.col("cat_ledger"))))
    cat_bank_yr=cat_bank_yr.withColumn("category",trim(lower(F.col("category"))))

希望这会起作用。祝你好运。