Question

我有两个列表，一个是区域，一个是相同大小的价格。

例如：面积= [1500,2000,2000,1800,2000,1500,500] 价格= [200,800,600,800,1000,750,200]

我需要返回每个唯一区域的价格列表，不包括原始区域。

因此，对于1500，我需要返回的列表是：[750]和[200] 对于2000，我需要返回的列表是[600,1000]，[800,1000]和[800,600] 对于1800和500，我需要返回的列表都是空列表[]。

然后目标是确定某个值是否是受价格绝对值影响的离群值-均值（不包括价格本身）小于5 *人口标准差（不包括价格本身而计算）

    import statistics
area = [1500,2000,2000,1800,2000,1500,500]
price = [200,800,600,800,1000,750,200]         
outlier_idx = []
for idx, val in enumerate(area):
    comp_idx = [i for i, x in enumerate(area) if x == val]
    comp_idx.remove(idx)
    comp_price = [price[i] for i in comp_idx]
    if len(comp_price)>2:
        sigma = statistics.stdev(comp_price)
        p_m = statistics.mean(comp_price)
        if abs(price[idx]-p_m) > 5 * sigma:
            outlier_idx.append(idx)

area = [i for j, i in enumerate(area) if j not in outlier_idx]
price = [i for j, i in enumerate(price) if j not in outlier_idx]

问题在于此计算需要花费大量时间，而我要处理的数组可能会很大。

我对如何提高计算效率感到困惑。

我愿意使用numpy，pandas或任何其他常见的软件包。

此外，我在熊猫中尝试过该问题：

df['p-p_m'] = ''
df['sigma'] = ''
df['outlier'] = False
for name, group in df.groupby('area'):
    if len(group)>1:
        idx = list(group.index)
        for i in range(len(idx)):
            tmp_idx = idx.copy()
            tmp_idx.pop(i)
            df['p-p_m'][idx[i]] = abs(group.price[idx[i]] - group.price[tmp_idx].mean())
            df['sigma'][idx[i]] = group.price[tmp_idx].std(ddof=0)
            if df['p-p_m'][idx[i]] > 3*df['sigma'][idx[i]]:
                df['outlier'][idx[i]] = True

谢谢。

Answer 1

此代码是必须为每个区域创建列表的方法：

df = pd.DataFrame({'area': area, 'price': price})

price_to_delete = [item for idx_array in df.groupby('price').groups.values() for item in idx_array[1:]]
df.loc[price_to_delete, 'price'] = None

df = df.groupby('area').agg(lambda x: [] if all(x.isnull()) else x.tolist())
df

我不知道您想要什么，但这部分是计算每个区域中每个价格的离群值：

df['outlier'] = False
df['outlier'] = df['price'].map(lambda x: abs(np.array(x) - np.mean(x)) > 3*np.std(x) if len(x) > 0 else [])
df

希望对您有任何帮助！

Answer 2

以下是结合了Numpy和Numba的解决方案。尽管是正确的，但我并未针对效率方面的替代方法进行测试，但Numba通常可以显着提高需要遍历数据的任务的速度。根据您的定义，我添加了一个离群点。

import numpy as np
from numba import jit

# data input
price = np.array([200,800,600,800,1000,750,200, 2000])
area = np.array([1500,2000,2000,1800,2000,1500,500, 1500])

@jit(nopython=True)
def outliers(price, area):
    is_outlier = np.full(len(price), False)
    for this_area in set(area):
        indexes = area == this_area
        these_prices = price[indexes]
        for this_price in set(these_prices):
            arr2 = these_prices[these_prices != this_price]
            if arr2.size > 1:
                std = arr2.std()
                mean = arr2.mean()
                indices = (this_price == price) & (this_area == area)
                is_outlier[indices] = np.abs(mean - this_price) > 5 * std

    return is_outlier 

> outliers(price, area)
> array([False, False, False, False, False, False, False,  True])

如果您对每个区域有几个相同的价格水平，则代码应该很快，因为它们将立即全部更新。

我希望这会有所帮助。

快速遍历列表，查找重复项并执行计算的方法

2 个答案: