Question

我是Python和数据科学的新手。我正在进行kaggle Outbrain竞赛，我的代码中引用的所有数据集都可以在https://www.kaggle.com/c/outbrain-click-prediction/data找到。

关于问题：我有一个包含['document_id', 'category_id', 'confidence_level']列的数据框。我想添加第四列'max_cat'，该列返回'category_id'值，该值对应于行'confidence_level'的最大'document_id'值。

import pandas as pd
import numpy

main_folder = r'...filepath\data_location' + '\\'

docs_meta = pd.read_csv(main_folder + 'documents_meta.csv\documents_meta.csv',nrows=1000)
docs_categories = pd.read_csv(main_folder + 'documents_categories.csv\documents_categories.csv',nrows=1000)
docs_entities = pd.read_csv(main_folder + 'documents_entities.csv\documents_entities.csv',nrows=1000)
docs_topics = pd.read_csv(main_folder + 'documents_topics.csv\documents_topics.csv',nrows=1000)

def find_max(row,the_df,groupby_col,value_col,target_col):
   return the_df[the_df[groupby_col]==row[groupby_col]].loc[the_df[value_col].idxmax()][target_col]

test = docs_categories.copy()
test['max_cat'] = test.apply(lambda x: find_max(x,test,'document_id','confidence_level','category_id'))

这给了我错误：KeyError: ('document_id', 'occurred at index document_id')

任何人都可以帮助解释为什么会出现这种错误，或者如何以更有效的方式实现我的目标？

谢谢！

Answer 1

正如EdChum在comments所回答的那样。问题是apply默认按列方式工作（请参阅docs）。因此，无法访问列名称。

要指定应将其应用于每一行，必须传递axis=1：

test.apply(lambda x: find_max(x,test,'document_id','confidence_level','category_id'), axis=1)

Pandas应用键错误

1 个答案: