在python pandas中搜索Dataframe整行的多个字符串值

时间:2018-06-13 20:44:05

标签: python string pandas dataframe

在pandas数据框中,我想逐行搜索多个字符串值。如果该行包含一个字符串值,那么该函数将为该行添加/打印到df 1或0结尾处的空列,基于
关于如何选择与(部分)字符串匹配的Pandas DataFrame行,有多个教程。

例如:

import pandas as pd

#create sample data
data = {'model': ['Lisa', 'Lisa 2', 'Macintosh 128K', 'Macintosh 512K'],
        'launched': [1983,1984,1984,1984],
        'discontinued': [1986, 1985, 1984, 1986]}

df = pd.DataFrame(data, columns = ['model', 'launched', 'discontinued'])
df

我从这个网站上拉了上面的例子: https://davidhamann.de/2017/06/26/pandas-select-elements-by-string/

如何对整行进行多值搜索:' int',' tos',' 198'?

然后打印到下一个已停止的列中,列int将根据该行是否包含该关键字而具有1或0。

5 个答案:

答案 0 :(得分:0)

如果你有

l=['int', 'tos', '198']

然后您通过加入str.contains来使用'|'来获取包含任何这些字词的每个模型

df.model.str.contains('|'.join(l))

0    False
1    False
2     True
3     True

修改

如果打算将所有列检查为@jpp解释,我建议:

from functools import reduce
res = reduce(lambda a,b: a | b, [df[col].astype(str).str.contains(m) for col in df.columns])

0    False
1     True
2     True
3     True

如果您希望它作为具有整数值的列,请执行

df['new_col'] = res.astype(int)

     new_col
0    0
1    1
2    1
3    1

答案 1 :(得分:0)

您需要检查model是否是match的子字符串。

match = [ 'int', 'tos', '198']
df['isContained'] = df['model'].apply(lambda x: 1 if any(s in x for s in match) else 0)

输出:

            model  launched  discontinued  isContained
0            Lisa      1983          1986            0
1          Lisa 2      1984          1985            0
2  Macintosh 128K      1984          1984            1
3  Macintosh 512K      1984          1986            1

答案 2 :(得分:0)

如果我理解正确,您希望检查每行中所有列的字符串是否存在。鉴于您有混合类型(整数,字符串),这并不简单。一种方法是使用pd.DataFrame.apply和自定义函数。

我们需要记住的要点是将整个数据帧转换为str类型,因为您无法测试整数中子串的存在。

match = ['int', 'tos', '1985']

def string_finder(row, words):
    if any(word in field for field in row for word in words):
        return True
    return False

df['isContained'] = df.astype(str).apply(string_finder, words=match, axis=1)

print(df)

            model  launched  discontinued  isContained
0            Lisa      1983          1986        False
1          Lisa 2      1984          1985         True
2  Macintosh 128K      1984          1984         True
3  Macintosh 512K      1984          1986         True

答案 3 :(得分:0)

因此,不使用花哨的熊猫职员的最简单方法是使用两个for循环。我希望有人可以提供更好的解决方案,但我的方法是:

def check_all_for(column_name, search_terms):
    df[column_name] = ''
    for row in df.iterrows():
        flag = 0
        for element in row:
            for search_term in search_terms:
                if search_term in (str(element)).lower():
                    flag = 1
        row[column_name] = flag

假设您已经将dataframe定义为df,并且想用1和0标记新列

答案 4 :(得分:0)

@Guy_Fuqua,我了解到您想确保一行中包含所有单词,对吗?

如果是这样,那么对jpp答案进行一些修改将有助于您实现这一目标,请在此处注意AssessAllString函数

match = ['int', 'tos', '1984']

def string_finder(row, words):
    if any(word in field for field in row for word in words):
        return True
    return False

def AssessAllString (row,words):
    b=True
    for x in words:
      b = b&string_finder(row,[x])
    return b

df['isContained'] = df.astype(str).apply(AssessAllString, words=match, axis=1)

print(df)

            model  launched  discontinued  isContained
0  Lisa            1983      1986          False      
1  Lisa 2          1984      1985          False      
2  Macintosh 128K  1984      1984          True       
3  Macintosh 512K  1984      1986          True 

另一个示例:

match = ['isa','1984']
df['isContained'] = df.astype(str).apply(AssessAllString, words=match, axis=1)

            model  launched  discontinued  isContained
0  Lisa            1983      1986          False      
1  Lisa 2          1984      1985          True       
2  Macintosh 128K  1984      1984          False      
3  Macintosh 512K  1984      1986          False 

我认为代码仍然需要优化,但到目前为止已经达到目的