尝试在Python中创建人工数据框时遇到错误

时间:2020-09-08 02:44:18

标签: python dataframe cluster-analysis linear-regression k-means

这是我的第一篇文章,对我的任何遗漏请原谅。

试图创建一个人工数据框以使用k均值聚类。在运行数据集创建功能并查看数据框时出现此错误,如下所示。

TypeError: _append_dispatcher() missing 1 required positional argument: 'values'

感谢您的支持和帮助。

from scipy.stats import norm 
import random
from numpy import *
import numpy as np
from ast import literal_eval
from pandas import DataFrame
def create_clustered_data(N,k):
    random.seed(10)
    points_per_cluster=float(N)/k
    x=[]
    
    for i in range(k):
        income_centroid=random.uniform(20000,200000)
        age_centroid=random.uniform(20,70)
        for j in range(int(points_per_cluster)):
            x=np.append([random.normal(income_centroid,10000),random.normal(age_centroid,2)])
        x=np.array(x)
    return(x)

df=create_clustered_data(100,5)
df

错误消息

TypeError                                 Traceback (most recent call last)
<ipython-input-204-0ff0b56b46c6> in <module>
     18     return(x)
     19 
---> 20 df=create_clustered_data(100,5)
     21 df
     22 

<ipython-input-204-0ff0b56b46c6> in create_clustered_data(N, k)
     14         age_centroid=random.uniform(20,70)
     15         for j in range(int(points_per_cluster)):
---> 16             x=np.append([random.normal(income_centroid,10000),random.normal(age_centroid,2)])
     17         x=np.array(x)
     18     return(x)

<__array_function__ internals> in append(*args, **kwargs)

TypeError: _append_dispatcher() missing 1 required positional argument: 'values'

1 个答案:

答案 0 :(得分:0)

这里x = []创建一个列表,而不是numpy数组,还要检查numpy append函数的语法。 解决该问题的一种方法是使用list.append函数将其追加到列表中,然后将列表转换为numpy数组。

from scipy.stats import norm 
import random
from numpy import *
import numpy as np
from ast import literal_eval
from pandas import DataFrame

def create_clustered_data(N,k):
    random.seed(10)
    points_per_cluster=float(N)/k
    x=[]
    for i in range(k):
        income_centroid=random.uniform(20000,200000)
        age_centroid=random.uniform(20,70)
        for j in range(int(points_per_cluster)):
            x.append([random.normal(income_centroid,10000),random.normal(age_centroid,2)])
        ar = np.array(x) 
    return(ar)

df=create_clustered_data(100,5)
df