具有多个参数的pool.apply_async

时间:2016-10-31 15:22:54

标签: python multithreading tuples argument-unpacking

以下代码应同时调用两个数据库。我试着用它做 ThreadPool但遇到了一些困难。 pool.apply_async似乎不允许多个参数,因此我将它们放入元组然后尝试解压缩它们。这是正确的方法还是有更好的解决方案?

元组列表在params = ...中定义,元组有3个条目。我希望函数被调用两次,每次都有3个参数。

def get_sql(self, *params):  # run with risk
    self.logger.info(len(params))
    sql=params[0]
    schema=params[1]
    db=params[2]
    self.logger.info("Running SQL with schema: {0}".format(schema))
    df = pd.read_sql(sql, db)
    return df

def compare_prod_uat(self):
    self.connect_dbrs_prod_db()
    self.connect_dbrs_uat_db()
    self.logger.info("connected to UAT and PROD database")

    sql = """ SELECT * FROM TABLE """

    params = [(sql, "DF_RISK_PRD_OWNER", self.db_dbrs_prod), (sql, "DF_RISK_CUAT_OWNER", self.db_dbrs_uat)]
    pool = ThreadPool(processes=2)
    self.logger.info("Calling Pool")
    result_prod = pool.apply_async(self.get_sql, (sql, "DF_RISK_PRD_OWNER", self.db_dbrs_prod))
    result_uat = pool.apply_async(self.get_sql, (sql, "DF_RISK_CUAT_OWNER", self.db_dbrs_uat))

    # df_prod = self.get_sql(sql, "DF_RISK_PRD_OWNER", self.db_dbrs_prod)
    # df_cuat = self.get_sql(sql, "DF_RISK_CUAT_OWNER", self.db_dbrs_uat)


    self.logger.info("Get return from uat")
    df1 = result_uat.get()  # get return value from the database call

    self.logger.info("Get return from prod")
    df2 = result_prod.get()  # get second return value from the database call


    return df1, df2

1 个答案:

答案 0 :(得分:0)

可能有很多问题,但如果你添加

print params

作为你的get_sql的第一行,你会看到你发送了一个元组(sql,[(sql," DF_RISK_PRD_OWNER",self.db_dbrs_prod),(sql,... ..)])

所以是的,params的长度总是两个,第一个参数是" sql"无论你的实现是什么,第二个是长度为3的元组数组。我不明白你为什么发送(sql,params)而不仅仅是(params,)作为" sql"似乎在数组元素中存在。如果它需要在那里,你的阵列在params [1]。

但是,我不了解你的worker函数如何遍历这个数组。它似乎是为了只执行一个sql语句而构建的,因为它没有for循环。也许您打算在compare_prod_uat函数中执行for循环,并生成与数组中元素一样多的worker?我不知道,但它目前没有多大意义。

但参数问题可由此修复。