我正在尝试开发多维数据库。我对事实表中包含哪些度量感到困惑。
数据集-https://www.kaggle.com/johnolafenwa/us-census-data
当前,这是我的尺寸表
**Person Table**
personID INT PRIMARY KEY IDENTITY,
age_group varchar(20) NOT NULL,
age INT NOT NULL,
gender varchar(20) NOT NULL,
race varchar(20) NOT NULL,
relationship varchar(20) NOT NULL,
martial_status varchar(20) NOT NULL,
**Education Table**
educationID INT PRIMARY KEY IDENTITY,
education_num INT NOT NULL,
education varchar(20) NOT NULL,
education_level varchar(20) NOT NULL,
**Employment Table**
employmentID INT PRIMARY KEY,
occupation varchar(20) NOT NULL,
workclass varchar(20) NOT NULL,
is_Government varchar(20) NOT NULL,
hours_per_week INT NOT NULL,
**Income Table**
incomeID INT PRIMARY KEY,
capital_loss INT NOT NULL,
capital_gains INT NOT NULL,
greater_then_50K varchar(5) NOT NULL,
我对测量方法非常困惑。例如,应该采取多少措施?这些是我想回答的业务问题:
总资本收益和总资本损失(加法)
average_capital_gains AND average_capital_loss(半累加)
total_hours_per_week(加法)
average_hours_per_week(半加法)
试图了解这些措施的面貌。例如,最好的谷物是每人。每个年龄段的人都可以进行下一次汇总。
我知道百分比是一个很好的衡量标准,但是我不确定应该检查哪个比例。
很抱歉,如果我问错了一个问题,但我真的坚持这个概念。
谢谢