如何将数据读入指定的不同组

时间:2018-05-09 10:34:12

标签: python pandas dataframe

我使用下面的代码,将数据分成两组

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
dataFileName='RFInput.xlsx'
sheetName='Rawdata'
sheetNamePara='paraList'
dataRaw=pd.read_excel(dataFileName, sheetname = sheetName)
datapara=pd.read_excel(dataFileName, sheetname = sheetNamePara)

noData=len(dataRaw)
import matplotlib.pylab as plt
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import cross_val_score
from sklearn.preprocessing import StandardScaler


labels = datapara
x = dataRaw[labels]
y = dataRaw['classVariable']

RAWDATA:

A   B     C      D    E      F
0   1.2   1.6   3.2  3.2    1.6
1   1.2   1.6   3.2  3.2    1.6
2   2.6   1.9   6.5  6.5    1.9
0   1.2   1.6   3.2  3.2    1.6
1   2.6   1.9   6.5  6.5    1.9
4   1.2   1.6   3.2  3.2    1.6


paraList:
A   C  E  F
Y   N  Y  Y

A,B,C,D,E,F是我在rawData中的原始变量名,但我只想提取paraList中指定的A,C,E,F变量数据。这些必需的变量列在paraList中,它们分成两组Y& N, 我想将Y变量数据读入x_Y,将N变量数据读入x_N。

1 个答案:

答案 0 :(得分:0)

如果我理解正确,您需要原始表的子集。您不需要两次读取文件,只需将数据框索引为<div> <table border="1"> <tr> <th>Product</th> <th>Code</th> <th>Price</th> <th>Action</th> </tr> <tr *ngFor="let product of products"> {{product.product_name}} </tr> </table> </div> 就足够了。您可以将此视图指向另一个变量,也可以使用添加的dataRaw[["A","C","E","F"]]复制它。

但由于这是一个相当基本的问题,我建议你阅读10 minutes pandas introduction

修改
在这种情况下,我建议将列和类别列表存储到字典中,并使用简单的列表解析来访问它们,类似这样的

.copy()