如何清理和正确配置另一个文件中的库和SparkConf

时间:2019-07-16 08:11:28

标签: python apache-spark pyspark config

我的任务是自动化和清理别人的代码。我注意到的一件事是,它们使用的每个.py都会调用相同的库。有时甚至在同一文件中也要多次。

所以我想我会将所有通用代码放在另一个文件中,以某种方式从主代码中调用它(我已经看过几种方法来做到这一点,但还不是100%如何涉及库)。该怎么办?

这是我正在尝试的:

RunWorkerCompleted

代码:

location: tree/generic_Folder/folder_with_code/first_of_many.py

在主文件中,有很多行用于导入pandas,numpy和许多其他库,然后配置sparkContext。如果将其移动到另一个文件夹和文件,然后从那里导入,我认为这可以提高可读性。

事实是,我希望导入使两个库都包含必需的代码,并创建sparkContext / sparkSession来使用两者并在可能的情况下使用它们。

thisthis之后,我创建了另一个这样的文件夹:

df = pd.read_sql("""generic_table""")
DF = (spark.createDataFrame(df))

代码:

location: tree/generic_Folder/config/config.py

我需要做些什么,并确保库和变量spark都像在同一个文件和文件夹中一样工作(这是当前的样子)。

0 个答案:

没有答案