在字符串中查找与字典中的值匹配的单词,然后在新列中返回键

时间:2018-03-31 16:49:18

标签: python pandas dictionary dataframe

我一直在尝试迭代pandas数据框中的字符串来查找一组单词,这里我已经成功了。

但是,我意识到我不只是想找到单词,而且还要查看单词的语义,并将一组与我的主要关键字具有相同含义的单词组合在一起。

我偶然发现了以下问题 How to return key if a given string matches the keys value in a dictionary 这正是我想要做的事情,但遗憾的是无法让它在pandas数据框中运行。

以下是可以在链接中找到的解决方案之一:

my_dict = {"color": ("red", "blue", "green"), "someothercolor":("orange", "blue", "white")}

solutions = []

my_color = 'blue'

for key, value in my_dict.items():
    if my_color in value:
        solutions.append(key)

输出:

color

我的数据框:

现在我有一个数据框,我想迭代df ['Name']来找到一个值,然后我想将密钥添加到一个新列。在这个例子中,它将是df ['Color']

+---+----------+--------------------------+-----------------------------+----------+--------+
|   |   SKU    |           Name           |         Description         | Category | Colour |
+---+----------+--------------------------+-----------------------------+----------+--------+
| 0 | 7E+10    | Red Lace Midi Dress      | Red Lace Midi D...          | Dresses  |        |
| 1 | 7E+10    | Long Armed Sweater Azure | Long Armed Sweater Azure... | Sweaters |        |
| 2 | 2,01E+08 | High Top Ruby Sneakers   | High Top Ruby Sneakers...   | Shoes    |        |
| 3 | 4,87E+10 | Tight Indigo Jeans       | Tight Indigo Jeans...       | Denim    |        |
| 4 | 2,2E+09  | T-Shirt Navy             | T-Shirt Navy...             | T-Shirts |        |
+---+----------+--------------------------+-----------------------------+----------+--------+

预期结果:

+---+----------+--------------------------+-----------------------------+----------+--------+
|   |   SKU    |           Name           |         Description         | Category | Colour |
+---+----------+--------------------------+-----------------------------+----------+--------+
| 0 | 7E+10    | Red Lace Midi Dress      | Red Lace Midi D...          | Dresses  | red    |
| 1 | 7E+10    | Long Armed Sweater Azure | Long Armed Sweater Azure... | Sweaters | blue   |
| 2 | 2,01E+08 | High Top Ruby Sneakers   | High Top Ruby Sneakers...   | Shoes    | red    |
| 3 | 4,87E+10 | Tight Indigo Jeans       | Tight Indigo Jeans...       | Denim    | blue   |
| 4 | 2,2E+09  | T-Shirt Navy             | T-Shirt Navy...             | T-Shirts | blue   |
+---+----------+--------------------------+-----------------------------+----------+--------+

我的代码:

colour = {'red': ('red', 'rose', 'ruby’), ‘blue’: (‘azure’, ‘indigo’, ’navy')}

def fetchColours(x):
    for key, value in colour.items():
            if value in x:
                return key
            else:
                return np.nan

df['Colour'] = df['Name'].apply(fetchColours)

我收到以下错误:

TypeError: 'in <string>' requires string as left operand, not tuple

我无法对字符串运行元组。我该如何处理?

2 个答案:

答案 0 :(得分:0)

您需要遍历字典键元组值中的每个值。

根据错误消息,您无法检查tuple类型中是否存在str

此外,请确保在else循环之后发生for语句,以便在输出默认值之前测试所有键。

最后,请确保选中str.lower(),因为字符串匹配在Python中区分大小写。

import pandas as pd

df = pd.DataFrame({'Name': ['Red Lace Midi Dress', 'Long Armed Sweater Azure',
                            'High Top Ruby Sneakers', 'Tight Indigo Jeans',
                            'T-Shirt Navy']})

colour = {'red': ('red', 'rose', 'ruby'), 'blue': ('azure', 'indigo', 'navy')}

def fetchColours(x):
    for key, values in colour.items():
        for value in values:
            if value in x.lower():
                return key
    else:
        return np.nan

df['Colour'] = df['Name'].apply(fetchColours)

结果:

                       Name Colour
0       Red Lace Midi Dress    red
1  Long Armed Sweater Azure   blue
2    High Top Ruby Sneakers    red
3        Tight Indigo Jeans   blue
4              T-Shirt Navy   blue

答案 1 :(得分:0)

您正在尝试搜索字符串中的单词元组,而我想您要检查元组中的任何单词是否在字符串中。

BTW字符串在python中区分大小写。

您可以替换:

if value in x: 

通过

if any(word in x.lower() for word in value):