Question

我的数据文件如下所示

#weight, height and gender
45 145 f
89 154 m
56 163 m
-1 165 f
65 175 m
-1 125 m
65 169 f

你可以看到，对于2个条目，我的权重为-1，这些是异常值，我想删除它们。那就是删除那个异常的条目。所以我尝试使用numpy来读取这个文件，就像在np.loadtxt中一样，所以它的代码就像

data = np.loadtxt('whData.dat',dtype=np.object,comments='#',delimiter=None)
X = data[:,0:2].astype(np.float)
y = data[:,2]
X = X.T
...

为了删除异常值，我定义了一个迭代数据的函数，并返回一个没有异常值的新数据。

def remove_outlier2(data):
    non_outlier = []
    for x in data:
        if x[0] != '-1':
            non_outlier.append(x)
    return non_outlier

我在从文件加载数据后调用它，即

data = np.loadtxt('whData.dat',dtype=np.object,comments='#',delimiter=None)
data = remove_outlier2(data)
np.asarray(data)
X = data[:,0:2].astype(np.float)
y = data[:,2]
X = X.T
...

但现在我得到了这个错误，我无法解决。

Traceback (most recent call last):

  File "<ipython-input-2-2aec95447a79>", line 1, in <module>
    runfile('C:/Users/xxx/py_workspace/pattern/whExample.py', wdir='C:/Users/xxx/py_workspace/pattern')

  File "C:\Users\xxx\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 699, in runfile
    execfile(filename, namespace)

  File "C:\Users\xxx\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyderlib\widgets\externalshell\sitecustomize.py", line 74, in execfile
    exec(compile(scripttext, filename, 'exec'), glob, loc)

  File "C:/Users/xxx/py_workspace/pattern/whExample.py", line 79, in <module>
    X = data[:,0:2].astype(np.float)

TypeError: list indices must be integers, not tuple

我还试图在从文件中读取数据之后打印数据，它在Spyder中看起来像这样

[['45' '145' 'f']
    ['89' '154' 'm']
    ['56' '163' 'm']
    ['-1' '165' 'f']
    ['65' '175' 'm']
    ['-1' '125' 'm']
    ['65' '169' 'f']]

我试图谷歌并找出我做错了什么，但无法弄清楚。我怎么解决这个问题？

由于

Answer 1

所以最后根据评论部分的建议，我所要做的就是使用np.asarray（）的输出，即

data = np.loadtxt('whData.dat',dtype=np.object,comments='#',delimiter=None)
# reomve outliers
data = remove_outlier2(data)
data = np.asarray(data)

事情很顺利。

Python | numpy | list indices必须是整数，而不是元组

1 个答案: