数据结构:我的模型的pandas数据帧或关系数据库?

时间:2016-12-20 17:19:10

标签: python dataframe relational-database simulation

我想构建一个模型,该模型应该计算接收过程的参数值,以优化仓库的容量。

该参数在接收过程中决定SKU将要存储的位置 - 作为高架货架中的palett(更昂贵)或作为自动纸箱架中的纸箱(更便宜)。

参数根据此数据设置:

关于所有SKU的总和:

  • 高架货架的容量
  • 纸箱架的容量。

货架和货架的容量取决于所有SKU的当前库存水平和离开存储的数量(因为SKU已售出)。

关于每个SKU和每天的单个值(20.000 SKU和365天):

  • 每天收到的此特定SKU的产品数量
  • 每天销售的此特定SKU的产品数量
  • 预计在即将到来的x天内销售的此特定SKU的产品数量
  • 已存储在此特定SKU的自动纸箱架中的卷

现在,我想知道我应该使用哪种数据结构来导入和使用Python中我的过程中的数据,因为数据包含两个值,分别为20.000个SKU和365天。

我认为我应该使用Pandas Dataframe,因为它在构建模型和可视化方面非常强大。但由于表格形式只具有2D性质,据我所知,我无法为20.000 SKU和所有365天的数据建模,因为这有点像3D。 因此,我想知道是否必须使用关系数据库,其中每个上述数据集(每SKU的接收量,每SKU的销售量,每SKU预计销售量,每个SKU的纸箱数量)将弥补一张桌子。

我在这里回答了一个问题时发现了以下问题,我觉得回答我的问题非常重要。以下是我的答案:

1)数据大小,行数,列数,列类型;你要追加行,还是只追加列?

行数:20.000 SKU

列数:如果为每个数据集采用单独的表,则为365列(=天);如果是一张桌子,则为365 * 4(365天*每SKU收到的量,每SKU的销售量,每SKU的预计销售量,每个SKU的纸箱量)

列类型:浮点数,布尔值

据我了解,我没有附加数据,但我使用数据计算每个SKU的值,然后从底部(SKU的详细数据)到顶部(所有SKU的总和=容量,库存)电平)

2)典型的操作是什么样的。例如。对列进行查询以选择一堆行和特定列,然后执行操作(内存中),创建新列,保存这些列。

求和,减法,乘法,除法,大于,小于,等于......

3)给出一个玩具示例可以使我们提供更具体的建议。     示例:

SKU 123456:

  • 纸箱货架上有200升库存
  • 今天收到1000升
  • 今天将售出300升
  • 预计x天的销售量为250升(应该是纸箱货架)

参数设置为600升(如果接收的音量较高,则进入palett racking,否则进入纸箱架)

因此您需要存储以下卷:

  • 库存200升+收到1000升=库存1200件
  • 1200升 - 300升售出= 900库存
  • 纸箱架需要250升= 650升

为650> 600,250升存放在纸箱架上,另外650个存放在高架货架中

总计: 收到此SKU后,库存高架货架为+ 650升 库存纸箱货架为+ 50升

如果高架货架的容量已满,并且无法达到+650升,则必须重新计算参数,以便当天的总数适合。

- >计算在接下来的364天内进行......

4)经过那个处理,那你做什么?第2步是临时的,还是可重复的?

可重复,因为它需要每天完成

5)输入平面文件:Gb中有多少粗略的总大小。这些如何组织,例如按记录?每个字段是否包含不同的字段,或者每个文件中是否包含一些记录以及每个文件中的所有字段?

我猜他们需要按SKU和日期组织

6)您是否曾根据标准选择行(记录)的子集(例如,选择字段A> 5的行)?然后做一些事情,或者你只选择包含所有记录的字段A,B,C(然后做一些事情)?

是 - >它总是检查是否满足容量;是否需要将一些体积放入纸箱架,......

7)你在'工作吗?您的所有列(以组为单位),或者您只能用于报告的比例很高(例如,您希望保留数据,但不需要明确列出该列,直到最终结果时间) ?

我想,大多数情况下,都会对数据进行计算,因此不仅仅是保持数据...

非常感谢你们!

0 个答案:

没有答案