Question

我有一个拥有3,500,000行和5列的数据框Emp（雇员详情）。我必须根据Emp_Name ==“John”过滤Dataframe。我为此目的使用loc。但这一步需要几个小时。使用庞大的数据集过滤数据帧的最佳和最快方法是什么？

Emp_subset=Emp.loc[Emp['Emp_Name'] == "John"]

Answer 1

不应该花那么长时间。这里没有必要使用loc。

试试这个，看看它加快了多少：

emp_subset=Emp[Emp['Emp_Name'] == "John"]

同时尽量不要将大写字母用于df对象名称，因为它可能会导致混淆：https://www.python.org/dev/peps/pep-0008/