我正在一个项目中,我必须编写一个具有数百万行和约25列(大多数为数字类型)的数据框。我正在使用Pandas DataFrame to SQL Function将数据帧转储到Mysql表中。我发现此函数创建了一个Insert语句,该语句可以一次插入多行。这是一个很好的方法,但是MySQL限制了使用这种方法可以构建的查询长度。
有没有一种方法可以将其并行插入同一张表中,从而加快处理速度?
答案 0 :(得分:2)
您可以做一些事情来实现这一目标。
一种方法是在写入sql时使用附加参数。
df.to_sql(method = 'multi')
根据此documentation,将'multi'传递给方法参数允许您批量插入。
另一种解决方案是使用multiprocessing.dummy构造自定义插入函数。 这是文档的链接:https://docs.python.org/2/library/multiprocessing.html#module-multiprocessing.dummy
import math
from multiprocessing.dummy import Pool as ThreadPool
...
def insert_df(df, *args, **kwargs):
nworkers = 4 # number of workers that executes insert in parallel fashion
chunk = math.floor(df.shape[0] / nworkers) # number of chunks
chunks = [(chunk * i, (chunk * i) + chunk) for i in range(nworkers)]
chunks.append((chunk * nworkers, df.shape[0]))
pool = ThreadPool(nworkers)
def worker(chunk):
i, j = chunk
df.iloc[i:j, :].to_sql(*args, **kwargs)
pool.map(worker, chunks)
pool.close()
pool.join()
....
insert_df(df, "foo_bar", engine, if_exists='append')
第二种方法在https://stackoverflow.com/a/42164138/5614132中被建议。