熊猫DF到Spark DF

时间:2020-11-03 14:36:10

标签: pandas dataframe pyspark

值错误-此行上的“名称已用作名称或标题”

q_sa_spark_DF = sparkContext.createDataFrame(q_to_sa)

1 个答案:

答案 0 :(得分:1)

这些是我的专栏,没有重复。

重复

fiscal_period

from collections import Counter

cols = ['fiscal_date', 'rid', 'FF_LIABS_LEASE', 'RegionID', 'company_name', 'cs_sector1_name', 'cs_sector2_name', 'currency', 'datadate', 'display_name', 'display_ticker', 'ff_assets', 'ff_assets_curr', 'ff_capex_fix', 'ff_cash_st', 'ff_com_eq', 'ff_debt_lt', 'ff_debt_st', 'ff_liabs_curr', 'ff_liabs_oth_xdfd_rev', 'ff_liabs_xmin_int_accum', 'ff_min_int_accum', 'ff_oper_lease_exp', 'ff_pens_funded_status', 'ff_pens_liab_unfunded', 'ff_pfd_stk', 'ff_ppe_gross', 'file_source', 'fiscal_period', 'fref_security_type', 'fs_perm_sec_id', 'prelim', 'sector', 'standard_date', 'sa_override', 'fiscal_period', 'ff_ebitda_oper', 'ff_ebit_oper', 'ff_int_exp_net', 'ff_cogs', 'ff_capex', 'ff_funds_oper_gross', 'ff_sales', 'ff_net_inc']

col_counts = Counter(cols)
repeats = [col for col, count in col_counts.items() if count > 1]
print(repeats)
['fiscal_period']