Julia-describe()函数显示不完整的摘要统计信息

时间:2019-01-05 10:50:25

标签: statistics julia summary

我正在尝试使用Julia进行基本数据分析

我正在跟踪this tutorial,其中包含可以使用以下代码找到的here(名为ImageView a = (ImageView) findViewById(R.id.imageView); ImageView b = (ImageView) findViewById(R.id.imageView2); if(a.getAlpha()==0f) return; 的火车数据集):

train_u6lujuX_CVtuZ9i.csv

并获得以下输出:

using DataFrames, RDatasets, CSV, StatsBase
train = CSV.read("/Path/to/train_u6lujuX_CVtuZ9i.csv");
describe(train[:LoanAmount])

代替本教程的输出:

Summary Stats:
Length:         614
Type:           Union{Missing, Int64}
Number Unique:  204

这也对应于Summary Stats: Mean: 146.412162 Minimum: 9.000000 1st Quartile: 100.000000 Median: 128.000000 3rd Quartile: 168.000000 Maximum: 700.000000 Length: 592 Type: Int64 % Missing: 3.583062 函数应提供的StatsBase.jl的输出

1 个答案:

答案 0 :(得分:4)

这是StatsBase.jl当前(在当前版本中)实现的方式。简而言之,train[:LoanAmount]没有eltype的子类型Real,然后StatsBase.jl使用后备方法,该方法仅打印长度,省略号和唯一值的数量。您可以编写describe(collect(skipmissing(train[:LoanAmount])))来获取摘要统计信息(当然,缺少的数量除外)。

但是,实际上,我建议您使用另一种方法。如果要在单列上获得更详细的输出,请使用:

describe(train[[:LoanAmount]], stats=:all)

您将获得另外以DataFrame返回的输出,这样您不仅可以查看统计信息,还可以访问它们。

选项stats=:all将打印所有统计信息,请参阅DataFrames.jl中的describe文档字符串以查看可用选项。

您可以找到在当前版本的DataFrames.jl here上使用此功能的一些示例。