我正在尝试在极大数据集的R中创建一个箱线图。包含数据的文件是2.5G,如果我尝试导入它会崩溃R.幸运的是,其他一些(python)软件可以毫无问题地生成均值和方差,这就是我真正想绘制的(现在)。
到目前为止我发现的每个教程都要求你输入完整的数据集,然后R计算统计数据本身,但我想知道如何将均值,中位数,最小值,最大值等传递给bwplot用于绘图。我更喜欢R和格子的原因是因为它与代码可能最终的软件套件很好地集成。如果我使用matlab或其他软件会出现问题,因为这将是我们当前用户的另一个要求。
答案 0 :(得分:6)
Boxplots 不绘制均值或方差。您实际上需要完整的排名数据来绘制正确的箱线图,因为数量是中位数,四分位数和关闭数据点的实际值在1.5倍IRQ加上所有数据点之外的范围内(异常值)。对于大型数据集来说,这通常不是一个好主意(因为根据定义,您有数百万个异常值)。
也就是说,您可以按照自己想要的方式生成基本摘要,并使用bxp
绘制它们 - 请参阅R中的?bxp
。如果不是,请确保明确您正在绘制的数量以上。