我一直在尝试迭代pandas数据框中的字符串来查找一组单词,这里我已经成功了。
但是,我意识到我不只是想找到单词,而且还要查看单词的语义,并将一组与我的主要关键字具有相同含义的单词组合在一起。
我偶然发现了以下问题 How to return key if a given string matches the keys value in a dictionary 这正是我想要做的事情,但遗憾的是无法让它在pandas数据框中运行。
以下是可以在链接中找到的解决方案之一:
my_dict = {"color": ("red", "blue", "green"), "someothercolor":("orange", "blue", "white")}
solutions = []
my_color = 'blue'
for key, value in my_dict.items():
if my_color in value:
solutions.append(key)
输出:
color
我的数据框:
现在我有一个数据框,我想迭代df ['Name']来找到一个值,然后我想将密钥添加到一个新列。在这个例子中,它将是df ['Color']
+---+----------+--------------------------+-----------------------------+----------+--------+
| | SKU | Name | Description | Category | Colour |
+---+----------+--------------------------+-----------------------------+----------+--------+
| 0 | 7E+10 | Red Lace Midi Dress | Red Lace Midi D... | Dresses | |
| 1 | 7E+10 | Long Armed Sweater Azure | Long Armed Sweater Azure... | Sweaters | |
| 2 | 2,01E+08 | High Top Ruby Sneakers | High Top Ruby Sneakers... | Shoes | |
| 3 | 4,87E+10 | Tight Indigo Jeans | Tight Indigo Jeans... | Denim | |
| 4 | 2,2E+09 | T-Shirt Navy | T-Shirt Navy... | T-Shirts | |
+---+----------+--------------------------+-----------------------------+----------+--------+
预期结果:
+---+----------+--------------------------+-----------------------------+----------+--------+
| | SKU | Name | Description | Category | Colour |
+---+----------+--------------------------+-----------------------------+----------+--------+
| 0 | 7E+10 | Red Lace Midi Dress | Red Lace Midi D... | Dresses | red |
| 1 | 7E+10 | Long Armed Sweater Azure | Long Armed Sweater Azure... | Sweaters | blue |
| 2 | 2,01E+08 | High Top Ruby Sneakers | High Top Ruby Sneakers... | Shoes | red |
| 3 | 4,87E+10 | Tight Indigo Jeans | Tight Indigo Jeans... | Denim | blue |
| 4 | 2,2E+09 | T-Shirt Navy | T-Shirt Navy... | T-Shirts | blue |
+---+----------+--------------------------+-----------------------------+----------+--------+
我的代码:
colour = {'red': ('red', 'rose', 'ruby’), ‘blue’: (‘azure’, ‘indigo’, ’navy')}
def fetchColours(x):
for key, value in colour.items():
if value in x:
return key
else:
return np.nan
df['Colour'] = df['Name'].apply(fetchColours)
我收到以下错误:
TypeError: 'in <string>' requires string as left operand, not tuple
我无法对字符串运行元组。我该如何处理?
答案 0 :(得分:0)
您需要遍历字典键元组值中的每个值。
根据错误消息,您无法检查tuple
类型中是否存在str
。
此外,请确保在else
循环之后发生for
语句,以便在输出默认值之前测试所有键。
最后,请确保选中str.lower()
,因为字符串匹配在Python中区分大小写。
import pandas as pd
df = pd.DataFrame({'Name': ['Red Lace Midi Dress', 'Long Armed Sweater Azure',
'High Top Ruby Sneakers', 'Tight Indigo Jeans',
'T-Shirt Navy']})
colour = {'red': ('red', 'rose', 'ruby'), 'blue': ('azure', 'indigo', 'navy')}
def fetchColours(x):
for key, values in colour.items():
for value in values:
if value in x.lower():
return key
else:
return np.nan
df['Colour'] = df['Name'].apply(fetchColours)
结果:
Name Colour
0 Red Lace Midi Dress red
1 Long Armed Sweater Azure blue
2 High Top Ruby Sneakers red
3 Tight Indigo Jeans blue
4 T-Shirt Navy blue
答案 1 :(得分:0)
您正在尝试搜索字符串中的单词元组,而我想您要检查元组中的任何单词是否在字符串中。
BTW字符串在python中区分大小写。
您可以替换:
if value in x:
通过
if any(word in x.lower() for word in value):