在数据帧过滤中使用很多时间

时间:2018-04-30 06:36:09

标签: python dataframe

我有一个拥有3,500,000行和5列的数据框Emp(雇员详情)。我必须根据Emp_Name ==“John”过滤Dataframe。我为此目的使用loc。但这一步需要几个小时。使用庞大的数据集过滤数据帧的最佳和最快方法是什么?

Emp_subset=Emp.loc[Emp['Emp_Name'] == "John"]

1 个答案:

答案 0 :(得分:0)

不应该花那么长时间。这里没有必要使用loc。

试试这个,看看它加快了多少:

emp_subset=Emp[Emp['Emp_Name'] == "John"]

同时尽量不要将大写字母用于df对象名称,因为它可能会导致混淆:https://www.python.org/dev/peps/pep-0008/