我的任务是自动化和清理别人的代码。我注意到的一件事是,它们使用的每个.py都会调用相同的库。有时甚至在同一文件中也要多次。
所以我想我会将所有通用代码放在另一个文件中,以某种方式从主代码中调用它(我已经看过几种方法来做到这一点,但还不是100%如何涉及库)。该怎么办?
这是我正在尝试的:
RunWorkerCompleted
代码:
location: tree/generic_Folder/folder_with_code/first_of_many.py
在主文件中,有很多行用于导入pandas,numpy和许多其他库,然后配置sparkContext。如果将其移动到另一个文件夹和文件,然后从那里导入,我认为这可以提高可读性。
事实是,我希望导入使两个库都包含必需的代码,并创建sparkContext / sparkSession来使用两者并在可能的情况下使用它们。
df = pd.read_sql("""generic_table""")
DF = (spark.createDataFrame(df))
代码:
location: tree/generic_Folder/config/config.py
我需要做些什么,并确保库和变量spark都像在同一个文件和文件夹中一样工作(这是当前的样子)。