我有以下操作
for i, paper in enumerate(corpus_df.itertuples(), 1):
corpus_df.loc[i, 'main_category'] = metadata.loc[metadata['filename_parsed'] == paper.arxiv_id]['categories'].str.split().tolist()[0][0]
我想在corpus_df
数据框中为每一行分配一个main_category
列中的值,并从metadata
数据框中获取此值。
corpus_df
包含约27,000行,metadata
包含约250,000行。
我读到intertuples
是一种遍历数据帧的快速方法,而loc
应该有助于提高速度。还有什么我可以做以加快速度吗?目前运行时间超过5分钟。