应用错误收集

大数据往往优于小数据，因为您拥有的样本越多，估算的精确度就越高。小数据有一些好处。例如，使用小数据而不是大数据，可视化，检查和理解数据中发生的事情要容易得多。如果您有20 000个观测值和50个变量，那么手动查看数据并不容易，可以这么说，而对2个变量的10个观测值则要容易得多。此外，如果数据集非常大，许多统计方法可能会因为它们花费太长时间来使它们合理而分解。

另一方面，小数据集会导致估算精度降低，功耗降低，并且在一些重要背景特征上偶然比较组的风险大得多，这使得各组之间的比较不公平，即使数据来自随机试验。对我来说，这些缺点超过了拥有一个小数据集的好处。

此外，如果您拥有大型数据集，则可以更轻松地评估模型，因为您可以将数据拆分为培训和评估集。这意味着您可以在未用于估计其参数的数据上测试模型。如果您的数据集很小，这可能是不可能的，因为每次观察都很重要，然后才能估算参数。留一法交叉验证是一种选择，但测试之间会有很高的依赖性。

从因果推理的角度来看，这也是数据生成方式的问题。非常大的数据倾向于观察类型（例如寄存器），因此通常存在与非随机研究相关的问题，尤其是混淆（即，如果不对混杂因素进行调整，治疗组和对照组的结果不具有可比性）。这并不是说来自实验研究的数据没有问题，或观察数据是无用的（远非它！），但人们应该始终知道手头有哪种类型的数据。当然，大型观测数据集优于小型观测数据集。

大数据和小数据的优缺点？

1 个答案: