在熊猫中与kmeans聚集

时间:2018-07-09 08:43:48

标签: python python-3.x pandas scikit-learn

我想使用k-means算法对某种形式的卖点统计数据进行聚类。 这是我的csv文件外观的示例:

articleNumber, quantity, date
101,           15,       2018-07-09
101,           30,       2018-07-08
...
102,           10,       2018-07-09
102,           5,        2018-07-09
...

我的目标是找到相似的文章组(例如,夏季销售良好),并将将来的文章与这些组进行匹配。 我到目前为止所做的: 我将csv文件读入了pandas数据框:

data = pd.readcsv(("data.csv"), parse_dates=["DATE"], nrows=1000)

需要帮助的地方:

  • 标准化数据:我尝试使用sklearn-package中的L1和L2标准化,以及尝试使用pandas的dataframe.pctchange。我如何从第一天到第二天,第二天到第三天等等获得百分比变化。我不想与实际数量进行比较/匹配,我想根据百分比变化或“形状”进行比较。
  • 从主数据框“数据”中为商品编号的每个数据集获取一个数据框(可能是可以传递给k-means算法的数据框数组)

0 个答案:

没有答案