我的数据集混乱。每行8个单词,分布在196列中。任务是在每一行中找到包含该单词的列。例如:单词“ Paid”可以出现在196列中的任何一列中,但我们知道它在那里。我们需要知道它在哪一列中。谢谢您的帮助。
答案 0 :(得分:2)
我认为eq
+ idxmax
在这里最简单,只需几个单词并完全匹配,并保证它在那里。由于只有8个字,因此可能只是列表理解和连接结果:
import pandas as pd
import numpy as np
np.random.seed(123)
l = ['']*192 + ['paid', 'foo', 'bar', 'baz']
df = pd.DataFrame([np.random.choice(l, replace=False, size=196)
for i in range(5)])
pd.concat([df.eq(word).idxmax(1).rename(word) for word in ['paid', 'foo', 'bar', 'baz']],
axis=1)
# paid foo bar baz
#0 112 167 184 142
#1 186 93 17 173
#2 56 142 179 67
#3 15 78 38 79
#4 116 84 18 61
如果您只需要检查列[4:196],请使用df.iloc[:, 4:197].eq(word)
而不是检查每一列