Question

我必须在项目中处理一些非常大的数据文件，这些文件非常大，每个大小＆gt; 50克。这些文件的格式各不相同：

type1  vaue1:123
type2  vaue1:234
type2  vaue1:234
type1  vaue1:234
type3  vaue1:234
.......

我想找出特定类型的数量并计算此类型的平均值和中值。我使用python逐个读取数据文件并最终计算，但这非常慢。我想用R来帮助我，但我想知道R是否可以处理这些大尺寸数据。我怀疑R是否可以将这些数据读入数据帧。

如果有人知道使用R或其他工具处理大尺寸数据的某些技能。我现在真的需要一些建议！

Answer 1

阅读数据的相对快捷的方法是使用包fread

中的data.table

d <- fread("myfile.txt", header = FALSE, sep = ":")
summary(d$V2)

[我假设您有50 GB的RAM来加载整个文件。]