我有一个数据集,其中所有项目均按顺序进行处理,但存储在单个列中。我需要准备数据集以便能够在其上运行apriori。先验需要在相邻列中购买的后续项目。我将必须创建的列数也将是可配置的,例如,假设3个连续项目与第一个项目相关,我可能决定最多容纳3列。这3可以改变。下面提供了示例数据并要求对它进行更好的解释。
Items
Item_1
Item_2
Item_3
Item_4
...
必需的输出数据集
Items Items_col1 Items_col2 Items_col3
Item_1 Item_2 NaN NaN
Item_2 Item_3 NaN NaN
Item_3 Item_4 NaN NaN
Item_1 Item_2 Item_3 NaN
Item_2 Item_3 Item_4 NaN
Item_1 Item_2 Item_3 Item_4
在python中,有没有一种简单的方法可以代替列循环,因为列数可以不断增加。
任何帮助都受到赞赏。
答案 0 :(得分:0)
已解决。
从算法上讲,采取一系列滞后并将其按列连接可以解决此问题。