我有一个拥有3,500,000行和5列的数据框Emp(雇员详情)。我必须根据Emp_Name ==“John”过滤Dataframe。我为此目的使用loc。但这一步需要几个小时。使用庞大的数据集过滤数据帧的最佳和最快方法是什么?
Emp_subset=Emp.loc[Emp['Emp_Name'] == "John"]
答案 0 :(得分:0)
不应该花那么长时间。这里没有必要使用loc。
试试这个,看看它加快了多少:
emp_subset=Emp[Emp['Emp_Name'] == "John"]
同时尽量不要将大写字母用于df对象名称,因为它可能会导致混淆:https://www.python.org/dev/peps/pep-0008/