假设我有一个pySpark数据框,只有一列是一组用户ID。我们称该数据帧为“sid_df”。此外,假设“sid_df”上的用户数量为100万。
现在,我想创建一个包含3个三列的新数据框。第一列是来自sid_df的用户ID,第二列是2018年5月的所有日期,名为“date”。第三列是该用户的money_earned和5月的那一天。最初我希望第三列alls的值设置为零。
换句话说,新数据框将有1 * 31 = 31百万条记录。
答案 0 :(得分:0)
手动将1-31天添加到表格中。 对于我的例子,带有数字的表是tn
然后使用以下查询来获取要插入新数据框的数据
Select id, tn.number, 0 as amountearned
from userstable
Cross join tn