我正在为学校比赛制作aut-ml程序。
我遇到一个问题,在加载数据集时,由于某种原因,其大小会发生变化。因此,我无法在机器学习算法中使用它们。
1.csv的实际大小为(515,12), 2.csv的实际大小为(31,12)。
data = pd.read_csv('1.csv')
X = pd.DataFrame(data)
data_predict = pd.read_csv('2.csv')
X_predict = pd.DataFrame(data_predict)
X_s = X.shape # output (515, 986)
X_predict_s = X_predict.shape # output (31, 136)
我已经尝试了很多,包括:
pd.concat([X[i] for i in X.columns]).dropna()
pd.concat([X_predict[i] for i in X_predict.columns]).dropna()
X.dropna(inplace=True)
indices_to_keep = X.isin([np.nan, np.inf, -np.inf])
X_predict.dropna(inplace=True)
indices_to_keep = X_predict.isin([np.nan, np.inf, -np.inf])
我还尝试将数据集写入Excel文件(使用pd.read_excel
)