在python 2.7,OSX上使用pandas 0.16.2。
我从csv文件中读取了一个数据框,如下所示:
import pandas as pd
data = pd.read_csv("my_csv_file.csv",sep='\t', skiprows=(0), header=(0))
data.dtypes
的输出是:
name object
weight float64
ethnicity object
dtype: object
我期待名字和种族的字符串类型。但我在这里找到了理由,说明为什么他们在新的熊猫版本中是“对象”。
现在,我想根据种族选择行,例如:
data[data['ethnicity']=='Asian']
Out[3]:
Empty DataFrame
Columns: [name, weight, ethnicity]
Index: []
我使用data[data.ethnicity=='Asian']
或data[data['ethnicity']=="Asian"]
获得相同的结果。
但是当我尝试以下内容时:
data[data['ethnicity'].str.contains('Asian')].head(3)
我得到了我想要的结果。
但是,我不想使用“包含” - 我想检查直接相等。
请注意,data[data['ethnicity'].str=='Asian']
会引发错误。
我做错了吗?如何正确地做到这一点?
答案 0 :(得分:7)
字符串中可能有空格,例如
data = pd.DataFrame({'ethnicity':[' Asian', ' Asian']})
data.loc[data['ethnicity'].str.contains('Asian'), 'ethnicity'].tolist()
# [' Asian', ' Asian']
print(data[data['ethnicity'].str.contains('Asian')])
产量
ethnicity
0 Asian
1 Asian
要从字符串中删除前导或尾随空格,可以使用
data['ethnicity'] = data['ethnicity'].str.strip()
之后,
data.loc[data['ethnicity'] == 'Asian']
产量
ethnicity
0 Asian
1 Asian
答案 1 :(得分:2)
你可以试试这个:
data[data['ethnicity'].str.strip()=='Asian']