我已经学会了包括平均值,中位数,模式和不同测试的统计数据
进行Z测试,F测试和卡方,但一般都参与
困难的数字数据预测挑战,如在kaggle和其他
平台我几乎看不到任何人使用统计测试,如z,f,chi-square,
数据的标准化 - 我们使用箱形图,条形图来看均值
中位数,模式等。
我的问题是这些测试是数据科学中不可或缺的一部分,用于什么
这些问题主要是基于研究而设计的。理想情况下,应在数据科学问题中使用哪部分统计数据
为什么只有在数据科学必须包含所有统计数据时才使用某些部分。
我问的是测试和除算法之外的其他统计数据。
答案 0 :(得分:1)
如果您正在查看类似A / B测试的内容,您最有可能在数据科学中看到统计假设检验,您的目标是确定两个样本之间是否存在可靠差异以及该差异的大小
Kaggle比赛特别是监督学习问题而不是假设测试,这就是为什么你没有看到人们使用像卡方这样的东西。 (这是有道理的:如果你有十个人对同一个数据集进行假设检验,他们应该得到几乎相同的答案,这将导致一场非常无趣的竞争。)
就个人而言,我认为熟悉统计假设检验和机器学习技术是很好的,因为它们有不同的用途。希望有所帮助! :)
答案 1 :(得分:0)
数据科学中的每个问题都需要使用不同的方法,因此通用统计可能不适用。可能会出现一些可能不需要统计的问题