我想知道普通数据与JuliaDB或DataFrame的性能是否存在差异,以便对大型数据集进行计算(大但仍适合内存)?
我可以使用普通数组和算法进行排序,分组,减少等等。那么为什么我需要JuliaDB或DataFrame?
我有点理解为什么Python需要Pandas - 因为它将慢速python转换为快速C.但为什么Julia需要JuliaDB或DataFrame - Julia已经很快。
答案 0 :(得分:12)
这可能是一个广泛的主题。让我重点介绍一下我认为关键的功能。
Any
的数组,这将比使用具体类型的数据列更慢并占用更多内存。DataFrame
或构建GLM模型)。这种类型的存储(带有名称的异构列)是关系数据库中表的表示。
SharedArray
解决此问题,但这不是设计的一部分)如果您想并行计算,则必须手动执行;