如何为每个ID和每月的每一天添加新行?

时间:2018-02-26 08:01:18

标签: sql pyspark

假设我有一个pySpark数据框,只有一列是一组用户ID。我们称该数据帧为“sid_df”。此外,假设“sid_df”上的用户数量为100万。

现在,我想创建一个包含3个三列的新数据框。第一列是来自sid_df的用户ID,第二列是2018年5月的所有日期,名为“date”。第三列是该用户的money_earned和5月的那一天。最初我希望第三列alls的值设置为零。

换句话说,新数据框将有1 * 31 = 31百万条记录。

1 个答案:

答案 0 :(得分:0)

手动将1-31天添加到表格中。 对于我的例子,带有数字的表是tn

然后使用以下查询来获取要插入新数据框的数据

Select id, tn.number, 0 as amountearned 
from userstable
  Cross join tn