我的数据文件如下所示
#weight, height and gender
45 145 f
89 154 m
56 163 m
-1 165 f
65 175 m
-1 125 m
65 169 f
你可以看到,对于2个条目,我的权重为-1,这些是异常值,我想删除它们。那就是删除那个异常的条目。 所以我尝试使用numpy来读取这个文件,就像在np.loadtxt中一样,所以它的代码就像
data = np.loadtxt('whData.dat',dtype=np.object,comments='#',delimiter=None)
X = data[:,0:2].astype(np.float)
y = data[:,2]
X = X.T
...
为了删除异常值,我定义了一个迭代数据的函数,并返回一个没有异常值的新数据。
def remove_outlier2(data):
non_outlier = []
for x in data:
if x[0] != '-1':
non_outlier.append(x)
return non_outlier
我在从文件加载数据后调用它,即
data = np.loadtxt('whData.dat',dtype=np.object,comments='#',delimiter=None)
data = remove_outlier2(data)
np.asarray(data)
X = data[:,0:2].astype(np.float)
y = data[:,2]
X = X.T
...
但现在我得到了这个错误,我无法解决。
Traceback (most recent call last):
File "<ipython-input-2-2aec95447a79>", line 1, in <module>
runfile('C:/Users/xxx/py_workspace/pattern/whExample.py', wdir='C:/Users/xxx/py_workspace/pattern')
File "C:\Users\xxx\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 699, in runfile
execfile(filename, namespace)
File "C:\Users\xxx\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 74, in execfile
exec(compile(scripttext, filename, 'exec'), glob, loc)
File "C:/Users/xxx/py_workspace/pattern/whExample.py", line 79, in <module>
X = data[:,0:2].astype(np.float)
TypeError: list indices must be integers, not tuple
我还试图在从文件中读取数据之后打印数据,它在Spyder中看起来像这样
[['45' '145' 'f']
['89' '154' 'm']
['56' '163' 'm']
['-1' '165' 'f']
['65' '175' 'm']
['-1' '125' 'm']
['65' '169' 'f']]
我试图谷歌并找出我做错了什么,但无法弄清楚。 我怎么解决这个问题?
由于
答案 0 :(得分:0)
所以最后根据评论部分的建议,我所要做的就是使用np.asarray()的输出,即
data = np.loadtxt('whData.dat',dtype=np.object,comments='#',delimiter=None)
# reomve outliers
data = remove_outlier2(data)
data = np.asarray(data)
事情很顺利。