我很感激在R编程语言中进行以下数据分析/数据科学的任何提示,技巧和/或R软件包建议。我不是数据分析专家,而是编程方面的专家。
模拟特定时期内的客户步入。模拟应考虑在不同时段的峰值量以及工作日和周末的差异。
根据客户参与计算模拟客户购买。对一天中不同时间的平均美元价格和变化做出假设。
谢谢
答案 0 :(得分:1)
R具有一组用于不同分布的随机数生成器函数。在给定的时间段内,走进商店的顾客可以遵循泊松分布。例如,如果从下午1点起到下午3点,平均每2分钟有1个人,我们可以使用rpois()
函数估算到达人数:
lambda <- 1
intervals <- 120/2
numCustomers <- sum(rpois(intervals, lambda)) #looks at 60 2-minute intervals
您也可以将2小时的时间段视为1个时间间隔,λ= 60。在任何一种情况下,您都必须指定客户在每个时间间隔内进入的速率,但泊松可以在固定时间间隔内对客户数量进行建模。如果您需要帮助来近似当天的平均客户流量,那么交叉验证或数据科学可能是比这里更好的发布地点。这实际上取决于您的数据。
对于客户购买的建模,如果您想要离散地衡量某人是否购买,使用二项分布将很有效。 rbinom()
功能允许您这样做。如果我们想在2个小时的窗口中看到客户购买的数量,那么在该时间段内购买的概率为0.65:
customerSpent <- rbinom(numCustomers, 1, 0.65)
再次,如果您需要帮助确定某人花费的分配,这可能不是最好的地方,尝试其他StackExchange网站之一。更重要的是,它取决于您的数据结构,一旦您知道要使用的分布,R就可以很好地模拟客户参与。