我一直在尝试使用ralph kimballs技术建立数据仓库,但我实际上很难理解如何将数据加载到我的表中。我有一个sales_filev1.csv,其中包含以下列:
CUST_CITY_NM CUST_STREET_ADD CUST_POSTAL_CD CUST_STATE_CD CUST_NM CUST_NO CUST_PHONE_NO PROD_CAT_CD PROD_LN_CD PROD_NM PROD_PACKAGE_SIZE_NO SLS_PROMO_IN SLS_QTY_NO SLS_UNIT_PRICE_AM STORE_CITY_NM STORE_ESTABLISH_DT STORE_ID STORE_LVL_CD STORE_MGR_NM STORE_MGR_PHONE_NO STORE_NM STORE_NO STORE_POSTAL_CD STORE_STATE_CD STORE_STREET_AD SALES_DT
然后我有一个CUST_LOOKUP.csv包含 CUST_NO CUST_ID CUST_INCOME_AM CUST_CD
然后最后一个文件是产品查找: PROD_NM PROD_SKU_NO SLS_UNIT_COST_AM PROD_INTRO_DT PROD_ID
我知道我还需要有一个sales_fact表。但是,我的sales_filev1不是销售事实,因为它包含有关客户,商店和购买产品的所有信息以及何时?然后我会使用连接和插入将数据添加到一起吗?
答案 0 :(得分:0)
您需要以维度方式对数据建模(如果您要使用星型模式)并确定数据的粒度,确定将进入事实表的度量以及将驻留在事实表中的属性维度表。
数据仓库没有将您在一个表中的所有数据加在一起。它最适合存储和报告。
阅读Dimensional Modelling并且可能会按Ralph Kimball's DWH Toolkit购买优秀的图书。