我有大量数据集存储在PSQL中。
我的表Schema包括:
- id,location_id,hotel_id - > INT
- check_in_date,checkout_date - >日期
- 成年人,货币 - > ENUM
- room_type,sub_room_type - > ENUM
- min_price,max_price - > INT
首先,我需要分配所有酒店的价格(0,10,25,50,75,100百分位数)
我想执行此任务进行分析,因此速度不是问题。
起初,我将所有数据传输到AWS Redshift,执行任务并关闭它,但我无法估算成本。
我想探索具有成本效益的多种解决方案。
正在使用的机器:具有200 GB分配空间的AWS db.t2.micro
存储估计数据和行数的表
每个表都具有与字段类型相同的模式:
1个主要ID,3个日期字段,4个枚举,4个价格,4个整数