我正在尝试从脏数据集中获取列名。列名称的名称以符号“ =”开头。有没有一种快速的方法可以执行此操作而不循环所有数据? How it looks now
import pandas as pd
import numpy as np
missing_values=["n/a", "na", "--"]
df = pd.read_csv("data/data_bestand_3.txt", sep="&", na_values=missing_values)
df.head()
答案 0 :(得分:1)
看起来您正在读取第一行作为标题名称。在read_csv
方法中,传递参数header=None
。使用Series.str.split
设置您的列名:
missing_values=["n/a", "na", "--"]
df = pd.read_csv("data/data_bestand_3.txt", sep="&", na_values=missing_values, header=None)
df.columns = df.loc[0].str.split('=').str[0].values