我正在寻找更深入的答案。我知道基础知识 - 小数据分析速度更快,大数据有更强大的功能等等。但我想了解更多(可能是因果推断?)每种方法的优点和缺点。谢谢!
答案 0 :(得分:0)
大数据往往优于小数据,因为您拥有的样本越多,估算的精确度就越高。小数据有一些好处。例如,使用小数据而不是大数据,可视化,检查和理解数据中发生的事情要容易得多。如果您有20 000个观测值和50个变量,那么手动查看数据并不容易,可以这么说,而对2个变量的10个观测值则要容易得多。此外,如果数据集非常大,许多统计方法可能会因为它们花费太长时间来使它们合理而分解。
另一方面,小数据集会导致估算精度降低,功耗降低,并且在一些重要背景特征上偶然比较组的风险大得多,这使得各组之间的比较不公平,即使数据来自随机试验。对我来说,这些缺点超过了拥有一个小数据集的好处。
此外,如果您拥有大型数据集,则可以更轻松地评估模型,因为您可以将数据拆分为培训和评估集。这意味着您可以在未用于估计其参数的数据上测试模型。如果您的数据集很小,这可能是不可能的,因为每次观察都很重要,然后才能估算参数。留一法交叉验证是一种选择,但测试之间会有很高的依赖性。
从因果推理的角度来看,这也是数据生成方式的问题。非常大的数据倾向于观察类型(例如寄存器),因此通常存在与非随机研究相关的问题,尤其是混淆(即,如果不对混杂因素进行调整,治疗组和对照组的结果不具有可比性)。这并不是说来自实验研究的数据没有问题,或观察数据是无用的(远非它!),但人们应该始终知道手头有哪种类型的数据。当然,大型观测数据集优于小型观测数据集。