有没有一种方法可以在Python中编写一个函数,该函数读取一个numpy二维数组,查找任何异常值的索引值,然后返回具有这些索引值的数组?
这是我到目前为止所拥有的。我尝试使用Z评分方法:
import numpy as np
def function(arrayMatrix):
threshold = 3
mean_y = np.mean(arrayMatrix)
stdev_y = np.std(arrayMatrix)
z_scores = [(y - mean_y) / stdev_y for y in arrayMatrix]
return np.where(np.abs(z_scores) > threshold)
def main():
MatrixOne = np.array([[1,2,10],[1,10,2]])
print(function(MatrixOne))
MatrixTwo = np.array([[1,2,3,4,20],[1,20,2,3,4],[20,2,3,4,5]])
print(function(MatrixTwo))
main()
结果将是:
[2 1]
[4 1 0]
我的结果是:
(array([], dtype=int32), array([], dtype=int32))
(array([], dtype=int32), array([], dtype=int32))
答案 0 :(得分:0)
您提出了一个很好的问题。您可以使用四分位数间距(IQR)方法(使用python 移除异常值)。 =)
签出此代码。您可以调整名为outlierConstant
的变量以增加(或减少)对异常值的容忍度。我选择outlierConstant=0.5
作为此处给出的示例。
import numpy as np
# iqr is a function which returns indices of outliers in each row/1d array
def iqr(a, outlierConstant):
"""
a : numpy.ndarray (array from which outliers have to be removed.)
outlierConstant : (scale factor around interquartile region.)
"""
num = a.shape[0]
upper_quartile = np.percentile(a, 75)
lower_quartile = np.percentile(a, 25)
IQR = (upper_quartile - lower_quartile) * outlierConstant
quartileSet = (lower_quartile - IQR, upper_quartile + IQR)
outlier_indx = []
for i in range(num):
if a[i] >= quartileSet[0] and a[i] <= quartileSet[1]: pass
else: outlier_indx += [i]
return outlier_indx
def function(arr):
lst = []
for i in range(arr.shape[0]):
lst += iqr(a = arr[i,:], outlierConstant=0.5)
return lst
def main():
MatrixOne = np.array([[1,2,10],[1,10,2]])
print(function(MatrixOne))
MatrixTwo = np.array([[1,2,3,4,20],[1,20,2,3,4],[20,2,3,4,5]])
print(function(MatrixTwo))
main()
输出
[2, 1]
[4, 1, 0]
答案 1 :(得分:0)
离群值是一组测量值,与平均值的偏差大于两个标准偏差,而与平均值的偏差大于三个标准偏差。 在您的情况下,您可以将通过标准偏差的差异定义为离群值。
尝试一下:
import numpy as np
def main():
MatrixOne = np.array([[1,2,10],[1,10,2]])
print(function(MatrixOne))
MatrixTwo = np.array([[1,2,3,4,20],[1,20,2,3,4],[20,2,3,4,5]])
print(function(MatrixTwo))
MatrixThree = np.array([[1,10,2,8,5],[2,7,3,9,11],[19,2,1,1,5]])
print(function(MatrixThree))
def function(arrayMatrix):
arraystd=np.std(arrayMatrix,1,ddof=1,keepdims=True)
arraymean=np.mean(arrayMatrix,1)[:, np.newaxis]
arrayoutlier=np.transpose(np.where(np.abs(arrayMatrix-arraymean)>(arraystd)))#or 2*arraystd)
return arrayoutlier
main()
输出:
[[0 2]
[1 1]]
[[0 4]
[1 1]
[2 0]]
[[0 0]
[0 1]
[1 0]
[1 4]
[2 0]]
程序返回的索引是尺寸坐标。
答案 2 :(得分:0)
您的数学很好(尽管您需要设置threshold=1
才能获得所需的结果),但是使用Numpy数组有点麻烦。这里是如何修复代码的方法:
import numpy as np
def function(arrayMatrix, threshold=1):
zscore = (arrayMatrix - arrayMatrix.mean())/arrayMatrix.std()
return np.where(np.abs(zscore) > threshold)
def main():
MatrixOne = np.array([[1,2,10],[1,10,2]])
print(function(MatrixOne))
MatrixTwo = np.array([[1,2,3,4,20],[1,20,2,3,4],[20,2,3,4,5]])
print(function(MatrixTwo))
MatrixThree = np.array([[1,10,2,8,5],[2,7,3,9,11],[19,2,1,1,5]])
print(function(MatrixThree))
main()
这将输出:
(array([0, 1]), array([2, 1]))
(array([0, 1, 2]), array([4, 1, 0]))
(array([1, 2]), array([4, 0]))
其中每行的第一个数组是异常值的行索引,第二个数组是列索引。因此,例如,输出的第一行告诉您MatrixOne
中的异常值位于:
outliers = [MatrixOne[0,2], MatrixOne[1,1]]