我想构建一个模型,该模型应该计算接收过程的参数值,以优化仓库的容量。
该参数在接收过程中决定SKU将要存储的位置 - 作为高架货架中的palett(更昂贵)或作为自动纸箱架中的纸箱(更便宜)。
参数根据此数据设置:
关于所有SKU的总和:
货架和货架的容量取决于所有SKU的当前库存水平和离开存储的数量(因为SKU已售出)。
关于每个SKU和每天的单个值(20.000 SKU和365天):
现在,我想知道我应该使用哪种数据结构来导入和使用Python中我的过程中的数据,因为数据包含两个值,分别为20.000个SKU和365天。
我认为我应该使用Pandas Dataframe,因为它在构建模型和可视化方面非常强大。但由于表格形式只具有2D性质,据我所知,我无法为20.000 SKU和所有365天的数据建模,因为这有点像3D。 因此,我想知道是否必须使用关系数据库,其中每个上述数据集(每SKU的接收量,每SKU的销售量,每SKU预计销售量,每个SKU的纸箱数量)将弥补一张桌子。
我在这里回答了一个问题时发现了以下问题,我觉得回答我的问题非常重要。以下是我的答案:
1)数据大小,行数,列数,列类型;你要追加行,还是只追加列?
行数:20.000 SKU
列数:如果为每个数据集采用单独的表,则为365列(=天);如果是一张桌子,则为365 * 4(365天*每SKU收到的量,每SKU的销售量,每SKU的预计销售量,每个SKU的纸箱量)
列类型:浮点数,布尔值
据我了解,我没有附加数据,但我使用数据计算每个SKU的值,然后从底部(SKU的详细数据)到顶部(所有SKU的总和=容量,库存)电平)
2)典型的操作是什么样的。例如。对列进行查询以选择一堆行和特定列,然后执行操作(内存中),创建新列,保存这些列。
求和,减法,乘法,除法,大于,小于,等于......
3)给出一个玩具示例可以使我们提供更具体的建议。 示例:
SKU 123456:
参数设置为600升(如果接收的音量较高,则进入palett racking,否则进入纸箱架)
因此您需要存储以下卷:
为650> 600,250升存放在纸箱架上,另外650个存放在高架货架中
总计: 收到此SKU后,库存高架货架为+ 650升 库存纸箱货架为+ 50升
如果高架货架的容量已满,并且无法达到+650升,则必须重新计算参数,以便当天的总数适合。
- >计算在接下来的364天内进行......
4)经过那个处理,那你做什么?第2步是临时的,还是可重复的?
可重复,因为它需要每天完成
5)输入平面文件:Gb中有多少粗略的总大小。这些如何组织,例如按记录?每个字段是否包含不同的字段,或者每个文件中是否包含一些记录以及每个文件中的所有字段?
我猜他们需要按SKU和日期组织
6)您是否曾根据标准选择行(记录)的子集(例如,选择字段A> 5的行)?然后做一些事情,或者你只选择包含所有记录的字段A,B,C(然后做一些事情)?
是 - >它总是检查是否满足容量;是否需要将一些体积放入纸箱架,......
7)你在'工作吗?您的所有列(以组为单位),或者您只能用于报告的比例很高(例如,您希望保留数据,但不需要明确列出该列,直到最终结果时间) ?
我想,大多数情况下,都会对数据进行计算,因此不仅仅是保持数据...
非常感谢你们!