应用错误收集

返回包含文本值的列的列名

时间：2019-03-20 03:34:38

标签： python string pandas indexing

我的数据集混乱。每行8个单词，分布在196列中。任务是在每一行中找到包含该单词的列。例如：单词“ Paid”可以出现在196列中的任何一列中，但我们知道它在那里。我们需要知道它在哪一列中。谢谢您的帮助。

1 个答案:

答案 0 :(得分：2)

我认为eq + idxmax在这里最简单，只需几个单词并完全匹配，并保证它在那里。由于只有8个字，因此可能只是列表理解和连接结果：

样本数据：

import pandas as pd
import numpy as np

np.random.seed(123)
l = ['']*192 + ['paid', 'foo', 'bar', 'baz']
df = pd.DataFrame([np.random.choice(l, replace=False, size=196)
                   for i in range(5)])

代码：

pd.concat([df.eq(word).idxmax(1).rename(word) for word in ['paid', 'foo', 'bar', 'baz']], 
          axis=1)

#   paid  foo  bar  baz
#0   112  167  184  142
#1   186   93   17  173
#2    56  142  179   67
#3    15   78   38   79
#4   116   84   18   61

如果您只需要检查列[4：196]，请使用df.iloc[:, 4:197].eq(word)而不是检查每一列