this is my csv example我正在学习机器学习。为了便于研究,带有字符串数据的列应该由仅列名称的列表分隔,并以其他格式替换。如果每个列中的所有数据都有英文字符,并且有英文字符,我想将该列添加到列表中,然后再处理。
因此,我尝试将具有数据列名称的total_alphabet列表和具有数据列名称的ALL1_columnns列表双精度字,但是失败了。
import model
import preprocess as pre
import pandas as pd
import string
X,Y,ALL = pre.getTrainDataEX('report .csv')
print('Origin_Data',X.shape,Y.shape,ALL.shape)
ALL1 = ALL.dropna(axis=1)
X1 = X.dropna(axis=1)
print('DropNa_Data',X1.shape,ALL1.shape)
lower_alphabet = map(chr,range(97,123))
upper_alphabet = map(chr,range(65,91))
total_alphabet = lower_alphabet + upper_alphabet
ALL1_columns=list(ALL1.columns)
col_list = []
for i in ALL1_columns:
for j in total_alphabet:
if j in ALL1[i]:
col_list.append(ALL1_columns[i])
print col_list
变量i的列名称为ALL1。因此print(i)打印出ALL1的列名。 j指定每个字母。 ALL1 [i]在第i列中输出数据。没有错误,但未向col_list添加任何内容。
这是数据框:
info.score info.category info.git.head info.git.fetch_head
2.8 file 13cbed0d9 13cbed0d9