Question

我正在尝试从脏数据集中获取列名。列名称的名称以符号“ =”开头。有没有一种快速的方法可以执行此操作而不循环所有数据？ How it looks now

import pandas as pd
import numpy as np

missing_values=["n/a", "na", "--"]

df = pd.read_csv("data/data_bestand_3.txt", sep="&", na_values=missing_values)
df.head()

Answer 1

看起来您正在读取第一行作为标题名称。在read_csv方法中，传递参数header=None。使用Series.str.split设置您的列名：

missing_values=["n/a", "na", "--"]
df = pd.read_csv("data/data_bestand_3.txt", sep="&", na_values=missing_values, header=None)

df.columns = df.loc[0].str.split('=').str[0].values

从数据集中获取列名

1 个答案: