我正在开展一项分析统计项目。我的数据是成千上万的日常交易,而且就日常事务而言,我想在某些情况下标记交易。
问题来自于他们有5个参数我正在对数据进行分组。
我正在标记的方案总是通过将当前每日交易与最近的大型组进行比较。如果价格是集团平均价格的3倍,或者本月的交易数量翻了一倍,则可能出现这种情况。
例如:
我今天有1000笔交易。我将它们分组的5个标志是:
1.时间(日/夜)
2.Currency(USD / EUR)
3.Gender
4.支付全价
5.Country
在该示例中,5个标志中的4个是二进制的,但国家/地区列表还有更多选项。
实际上,在我的情况下,我更有可能拥有的群体数量应该接近1000个。
所以,如果我有700个组,我想比较。我需要查询每组至少500笔交易的数据。
我应该在700个案例中查明我的查询中需要的数据吗?
其中(a = 1且b = 0 ... e = 10)或(a = 0且b = 0 ... e = 30)或......或(a = 0且b = 1。 .. e = 30)=> 700例。
我是否应该查询大量不需要的数据,并以其他方式将每日1000笔交易与其组相匹配?
还有其他办法吗?
干杯