我有以下DataFrame
books = pd.Series(data = ['Great Expectations', 'Of Mice and Men', 'Romeo and Juliet', 'The Time Machine', 'Alice in Wonderland' ])
authors = pd.Series(data = ['Charles Dickens', 'John Steinbeck', 'William Shakespeare', ' H. G. Wells', 'Lewis Carroll' ])
user_1 = pd.Series(data = [3.2, np.nan ,2.5])
user_2 = pd.Series(data = [5., 1.3, 4.0, 3.8])
user_3 = pd.Series(data = [2.0, 2.3, np.nan, 4])
user_4 = pd.Series(data = [4, 3.5, 4, 5, 4.2])
dict_temp = {'Book Title':books, 'Author': authors, 'User 1': user_1, 'User 2':user_2, 'User 3': user_3, 'User 4': user_4}
pd.set_option('precision', 1)
temp_df = pd.DataFrame(dict_temp)
我的目标是选择所有用户评级为5.0的列。当我执行以下操作时,效果很好。
temp_df[temp_df == 5.0]
但是,如果我要选择用户评分> 4.0的列,结果将有所不同。为什么会这样?
temp_df[temp_df > 4.0]
这是我运行temp_df == 5.0 v / s temp_df> 4.0时发生的屏幕截图。我的问题是为什么我会看到“书名”和“作者”列?
P.S。我可以通过此行达到我想要的结果
temp_df[temp_df[['User 1','User 2','User 3','User 4']] > 4.0]
答案 0 :(得分:1)
使用您的代码运行以下代码没有问题。
我明确地将4.0
设置为float
,这可能对您有所帮助,尽管对我而言这不是问题。
temp_df = pd.DataFrame(dict_temp)
print(temp_df)
temp_df = temp_df[temp_df > float(4.0)]
print(temp_df)
输出
[5 rows x 6 columns]
Book Title Author ... User 3 User 4
0 Great Expectations Charles Dickens ... NaN NaN
1 Of Mice and Men John Steinbeck ... NaN NaN
2 Romeo and Juliet William Shakespeare ... NaN NaN
3 The Time Machine H. G. Wells ... NaN 5.0
4 Alice in Wonderland Lewis Carroll ... NaN 4.2