是否为每个有效的用户存储一个Pandas Dataframe? (存储在Google云端存储对象中。)

时间:2017-01-30 01:29:08

标签: python pandas dataframe google-cloud-storage

我正在试图找出pandas数据帧,我试图不要违反最佳做法。

如果我建议产品*向一个用户展示,那么每个用户一个数据帧是否有效?

在阅读Pandas Dataframes时,几乎看起来它们似乎是数据库意义上的表。因此,虽然看起来我可以/应该以这种方式使用Pandas,但似乎就像为每个用户使用整个表一样,这似乎是错误的。

我打算为每个客户存储的数据类似于他们看到过具有特定属性的产品,他们不喜欢具有特定属性的产品的次数,以及他们有多少次喜欢特定类别的产品,或具有特定属性的产品等。

我计划为每个用户存储一个数据帧,并将Google Cloud Storage作为对象(并在每次有新数据时重写整个对象)。**我不希望单独的数据帧变得过大。

我将产品数据存储在Google Datastore中,并计划使用来自数据框查询的信息来查询相应的产品,然后根据对存储在其中的用户信息的更全面分析,最终计算哪些产品最相关他们的特定数据框架和每个产品元标识/类别。

这与pandas数据帧的工作方式有何关系?这个解决方案是否可行?

===

  • 分类很好,并使用元数据进行组织

**如果这个服务的更新似乎太多,请提及

***仅仅是为了获取更多信息,我从不打算相互比较用户,因为产品对时间非常敏感,而且我只会向用户展示最新的产品;因此,我不能指望通过协作过滤器获取与当前产品相关的信息(因为其他类似的用户可能最近不喜欢新产品)。

0 个答案:

没有答案