应用错误收集

我有以下操作

for i, paper in enumerate(corpus_df.itertuples(), 1):
    corpus_df.loc[i, 'main_category'] = metadata.loc[metadata['filename_parsed'] == paper.arxiv_id]['categories'].str.split().tolist()[0][0]

我想在corpus_df数据框中为每一行分配一个main_category列中的值，并从metadata数据框中获取此值。

corpus_df包含约27,000行，metadata包含约250,000行。

我读到intertuples是一种遍历数据帧的快速方法，而loc应该有助于提高速度。还有什么我可以做以加快速度吗？目前运行时间超过5分钟。

如何加快熊猫的搜索和分配操作

0 个答案: