我有一些非结构化数据,需要对它进行一些修改 的 university_towns.txt :
Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
当我使用pd.read_table阅读此文件时,我的第一行(' Alabama [edit]')将pandas命名为我需要的列。
def get_list_of_university_towns():
df = pd.read_table('university_towns.txt')
df = df.reset_index()
return list(df)
> ['index', 'Alabama[edit]']
如何重置这个'自动命名'所以我的两个专栏都是自定义名称,我不会丢失第一个字符串(' Alabama [编辑]')?
我认为可能会有一些争论传递给read_table,但我不确定是哪一个。
答案 0 :(得分:1)
你可以通过多种方式实现。
例如:
使用pd.read_table时可以定义列名:
col = [“城市”]
df = pd.read_table(“D:\ datos \ _ university_towns.txt.txt”, names = col )