在Greenplum上使用madlib库执行kmean时出错

时间:2017-04-28 11:45:37

标签: greenplum hawq madlib

我正在尝试使用kmean库运行madlib算法,工具使用了aginity 试图执行:

SELECT * FROM madlib.kmeans_random('select "MPrice" as "MPrice" from "madlib"."sample_sordetail"','MPrice',2,'madlib.squared_dist_norm2','madlib.avg',10,0.001) 

我的表名是sample_sordetail

我收到错误:

  

错误:XX000:plpy.Error:kmeans错误:数据表不存在!   (plpython.c:4648)

请建议如何解决此问题。

2 个答案:

答案 0 :(得分:0)

madlib_kmean 请检查kmean_random参数定义。 rel_source - >文本。你需要把表名放在这里。 "从......中选择......"不是一张桌子。 您应该能够在这个madlib网站上找到该教程。

答案 1 :(得分:0)

经过艰苦的努力后,我才知道错误是由于数据格式造成的。 MPrice列应具有双精度类型点[]。 参考 this answer

将MPrice更改为双精度后,我能够在数据集上执行kmean算法。