我必须在项目中处理一些非常大的数据文件,这些文件非常大,每个大小> 50克。这些文件的格式各不相同:
type1 vaue1:123
type2 vaue1:234
type2 vaue1:234
type1 vaue1:234
type3 vaue1:234
.......
我想找出特定类型的数量并计算此类型的平均值和中值。 我使用python逐个读取数据文件并最终计算,但这非常慢。我想用R来帮助我,但我想知道R是否可以处理这些大尺寸数据。我怀疑R是否可以将这些数据读入数据帧。
如果有人知道使用R或其他工具处理大尺寸数据的某些技能。我现在真的需要一些建议!
答案 0 :(得分:1)
阅读数据的相对快捷的方法是使用包fread
data.table
d <- fread("myfile.txt", header = FALSE, sep = ":")
summary(d$V2)
[我假设您有50 GB的RAM来加载整个文件。]