通过具有什么特征或属性来澄清,我可以说分析是推论性的或预测性的。
参加一个涉及推理和预测分析的数据科学课程。解释(我理解的)是
推理
从群体中的小样本中引入假设,并且在较大/整个群体中看到它是正确的。
在我看来,这是概括。我认为诱导吸烟导致肺癌或二氧化碳导致全球变暖是推论分析。
预测
通过测量对象的变量来描述可能发生的事情。
我认为,确定哪些特征,行为,评论让人们反应良好,让一位足够受欢迎的总统候选人成为总统是一种预测分析(这也在课程中被触及)。
我对两者感到有点困惑,因为它看起来有灰色区域或重叠。
Bayesian Inference是“推理”,但我认为它用于预测,例如垃圾邮件过滤器或欺诈性金融交易识别。例如,银行可以使用先前对变量的观察(例如IP地址,发起人国家,受益人帐户类型等)并预测交易是否是欺诈性的。
我认为theory of relativity是一种推论分析,它从观察和思想实验中引入了一个理论/假设,但它也预测了光的方向会弯曲。
请帮助我理解将分析分类为推理或预测的必备属性。
答案 0 :(得分:5)
两者之间有一些灰色区域,但我们仍然可以做出区分。
推理统计是指您试图了解导致某种结果的原因。在这样的分析中,特别关注自变量,并且您希望确保您具有可解释的模型。例如,您在一项研究中检验吸烟是否会导致肺癌的例子是推论。在这里,你试图仔细研究导致肺癌的因素,吸烟恰好是其中之一。
在预测分析中,您更感兴趣的是使用某个数据集来帮助您预测结果变量值的未来变化。在这里,您可以使模型尽可能复杂,只要它完成工作就无法解释。一个更简单的例子是房地产投资公司,它有兴趣确定哪个变量组合预测某个房产的主要价格,以便它可以获取它们以获取利润。潜在的预测因素可能是邻里收入,犯罪,教育状况,到海滩的距离以及种族构成。这里的主要目的是获得这些变量的最佳组合,以便更好地预测未来的房价。
这里变得模糊不清。假设您对中年男性进行了一项研究,以确定心脏病的风险。要做到这一点,你需要测量体重,身高,种族,收入,婚姻状况,胆固醇,教育和一种名为“mx34”的潜在血清化学物质(只是这样做)。假设你发现这种化学物质确实是心脏病的一个很好的危险因素。您现在已经实现了推理目标。但是,您对新发现感到满意,并开始怀疑是否可以使用这些变量来预测谁可能患上心脏病。您希望这样做,以便您可以建议预防措施,以防止未来的心脏病。
答案 1 :(得分:5)
"What is the question?" by Jeffery T. Leek, Roger D. Peng很好地描述了典型数据科学工作流程中的各种类型的分析。要具体解决您的问题:
推论数据分析量化是否观察到的模式 可能会超出手头的数据集。这是最常见的 正式科学文献中的统计分析。一个例子 是一项关于空气污染是否与预期寿命相关的研究 美国的州级(9)。在非随机 实验中,通常只能确定是否存在 两个测量之间的关系,但不是底层的 机制或其原因。
超越推理数据分析,量化了 人口规模的关系,预测数据分析使用a 用于预测另一种测量的测量子集(特征) (结果)单个人或单位。网站喜欢 FiveThirtyEight.com使用民意调查数据来预测人们的投票方式 在选举中。预测数据分析仅显示您可以 从另一个预测一个测量;他们不一定解释 为什么预测的选择有效。
答案 2 :(得分:1)
我正在阅读的引起我这个问题的同一篇学术论文也给出了答案(来自UC Berkeley统计学家Leo Breiman):
•预测。为了能够预测将会发生什么反应 到将来的输入变量;
•[推论]。 23 用于[推论]大自然如何关联响应 变量到输入变量。
来源:http://courses.csail.mit.edu/18.337/2015/docs/50YearsDataScience.pdf