Question

我想使用k-means算法对某种形式的卖点统计数据进行聚类。这是我的csv文件外观的示例：

articleNumber, quantity, date
101,           15,       2018-07-09
101,           30,       2018-07-08
...
102,           10,       2018-07-09
102,           5,        2018-07-09
...

我的目标是找到相似的文章组（例如，夏季销售良好），并将将来的文章与这些组进行匹配。我到目前为止所做的：我将csv文件读入了pandas数据框：

data = pd.readcsv(("data.csv"), parse_dates=["DATE"], nrows=1000)

需要帮助的地方：

标准化数据：我尝试使用sklearn-package中的L1和L2标准化，以及尝试使用pandas的dataframe.pctchange。我如何从第一天到第二天，第二天到第三天等等获得百分比变化。我不想与实际数量进行比较/匹配，我想根据百分比变化或“形状”进行比较。
从主数据框“数据”中为商品编号的每个数据集获取一个数据框（可能是可以传递给k-means算法的数据框数组）

在熊猫中与kmeans聚集

0 个答案: