我试图在jupyter笔记本中运行pandas udf函数,我想在此导入我在此pandas udf中编写的一些模块。该代码可以在本地模式下运行。但是当我尝试在多节点中运行它时。它显示了在其他执行程序中找不到的模型。
没有熊猫udf,我可以在多节点上导入模块。所以,我认为这是与熊猫udf有关的问题。
有人以前有类似的问题吗?有解决办法吗?
下面是我在Jupyter笔记本中的代码:
from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import *
schema_return=spark_df.schema
@pandas_udf(schema_return, PandasUDFType.GROUPED_MAP)
def scoring_pudf(snap_df):
import numpy as np
import pandas as pd
import re
import pyarrow.parquet as pq
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import time
import config as conf
from econ import EconData
#initialize & read in configration file
config = conf.DevConfig()
#initialize & read in econ data
econ = EconData(config)
return econ
错误:
ModuleNotFoundError: No module named 'config'