如何加快熊猫的搜索和分配操作

时间:2019-04-05 22:41:51

标签: python-3.x pandas performance dataframe

我有以下操作

for i, paper in enumerate(corpus_df.itertuples(), 1):
    corpus_df.loc[i, 'main_category'] = metadata.loc[metadata['filename_parsed'] == paper.arxiv_id]['categories'].str.split().tolist()[0][0]

我想在corpus_df数据框中为每一行分配一个main_category列中的值,并从metadata数据框中获取此值。

corpus_df包含约27,000行,metadata包含约250,000行。

我读到intertuples是一种遍历数据帧的快速方法,而loc应该有助于提高速度。还有什么我可以做以加快速度吗?目前运行时间超过5分钟。

0 个答案:

没有答案