如何在R中加载和处理非常大的数据文件

时间:2014-08-07 09:51:25

标签: python r statistics bigdata

我必须在项目中处理一些非常大的数据文件,这些文件非常大,每个大小> 50克。这些文件的格式各不相同:

type1  vaue1:123
type2  vaue1:234
type2  vaue1:234
type1  vaue1:234
type3  vaue1:234
.......

我想找出特定类型的数量并计算此类型的平均值和中值。 我使用python逐个读取数据文件并最终计算,但这非常慢。我想用R来帮助我,但我想知道R是否可以处理这些大尺寸数据。我怀疑R是否可以将这些数据读入数据帧。

如果有人知道使用R或其他工具处理大尺寸数据的某些技能。我现在真的需要一些建议!

1 个答案:

答案 0 :(得分:1)

阅读数据的相对快捷的方法是使用包fread

中的data.table
d <- fread("myfile.txt", header = FALSE, sep = ":")
summary(d$V2)

[我假设您有50 GB的RAM来加载整个文件。]