我使用下面的代码,将数据分成两组
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
dataFileName='RFInput.xlsx'
sheetName='Rawdata'
sheetNamePara='paraList'
dataRaw=pd.read_excel(dataFileName, sheetname = sheetName)
datapara=pd.read_excel(dataFileName, sheetname = sheetNamePara)
noData=len(dataRaw)
import matplotlib.pylab as plt
from sklearn.cross_validation import train_test_split
from sklearn.cross_validation import cross_val_score
from sklearn.preprocessing import StandardScaler
labels = datapara
x = dataRaw[labels]
y = dataRaw['classVariable']
RAWDATA:
A B C D E F
0 1.2 1.6 3.2 3.2 1.6
1 1.2 1.6 3.2 3.2 1.6
2 2.6 1.9 6.5 6.5 1.9
0 1.2 1.6 3.2 3.2 1.6
1 2.6 1.9 6.5 6.5 1.9
4 1.2 1.6 3.2 3.2 1.6
paraList:
A C E F
Y N Y Y
A,B,C,D,E,F是我在rawData中的原始变量名,但我只想提取paraList中指定的A,C,E,F变量数据。这些必需的变量列在paraList中,它们分成两组Y& N, 我想将Y变量数据读入x_Y,将N变量数据读入x_N。
答案 0 :(得分:0)
如果我理解正确,您需要原始表的子集。您不需要两次读取文件,只需将数据框索引为<div>
<table border="1">
<tr>
<th>Product</th>
<th>Code</th>
<th>Price</th>
<th>Action</th>
</tr>
<tr *ngFor="let product of products">
{{product.product_name}}
</tr>
</table>
</div>
就足够了。您可以将此视图指向另一个变量,也可以使用添加的dataRaw[["A","C","E","F"]]
复制它。
但由于这是一个相当基本的问题,我建议你阅读10 minutes pandas introduction。
修改强>
在这种情况下,我建议将列和类别列表存储到字典中,并使用简单的列表解析来访问它们,类似这样的
.copy()