Question

我试图在jupyter笔记本中运行pandas udf函数，我想在此导入我在此pandas udf中编写的一些模块。该代码可以在本地模式下运行。但是当我尝试在多节点中运行它时。它显示了在其他执行程序中找不到的模型。

没有熊猫udf，我可以在多节点上导入模块。所以，我认为这是与熊猫udf有关的问题。

有人以前有类似的问题吗？有解决办法吗？

下面是我在Jupyter笔记本中的代码：

from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import *
schema_return=spark_df.schema
@pandas_udf(schema_return, PandasUDFType.GROUPED_MAP)
def scoring_pudf(snap_df):
    import numpy as np
    import pandas as pd
    import re
    import pyarrow.parquet as pq
    from datetime import datetime, date
    from dateutil.relativedelta import relativedelta
    import time

    import config as conf
    from econ import EconData


    #initialize & read in configration file
    config = conf.DevConfig()

    #initialize & read in econ data
    econ = EconData(config)

    return econ

错误：

ModuleNotFoundError: No module named 'config'

在Pandas UDF中找不到用于多节点的模块

0 个答案: