我正在尝试使用Julia进行基本数据分析
我正在跟踪this tutorial,其中包含可以使用以下代码找到的here(名为ImageView a = (ImageView) findViewById(R.id.imageView);
ImageView b = (ImageView) findViewById(R.id.imageView2);
if(a.getAlpha()==0f)
return;
的火车数据集):
train_u6lujuX_CVtuZ9i.csv
并获得以下输出:
using DataFrames, RDatasets, CSV, StatsBase
train = CSV.read("/Path/to/train_u6lujuX_CVtuZ9i.csv");
describe(train[:LoanAmount])
代替本教程的输出:
Summary Stats:
Length: 614
Type: Union{Missing, Int64}
Number Unique: 204
这也对应于Summary Stats:
Mean: 146.412162
Minimum: 9.000000
1st Quartile: 100.000000
Median: 128.000000
3rd Quartile: 168.000000
Maximum: 700.000000
Length: 592
Type: Int64
% Missing: 3.583062
函数应提供的StatsBase.jl的输出
答案 0 :(得分:4)
这是StatsBase.jl当前(在当前版本中)实现的方式。简而言之,train[:LoanAmount]
没有eltype
的子类型Real
,然后StatsBase.jl使用后备方法,该方法仅打印长度,省略号和唯一值的数量。您可以编写describe(collect(skipmissing(train[:LoanAmount])))
来获取摘要统计信息(当然,缺少的数量除外)。
但是,实际上,我建议您使用另一种方法。如果要在单列上获得更详细的输出,请使用:
describe(train[[:LoanAmount]], stats=:all)
您将获得另外以DataFrame
返回的输出,这样您不仅可以查看统计信息,还可以访问它们。
选项stats=:all
将打印所有统计信息,请参阅DataFrames.jl中的describe
文档字符串以查看可用选项。
您可以找到在当前版本的DataFrames.jl here上使用此功能的一些示例。