处理数据块

时间:2011-09-18 07:00:12

标签: r

我有一个大约800万个观测数据和5个字符变量的数据集“X” - 称它们为A,B,C,D和E.我试图用{{来计算D和E之间的jaro-winkler统计数据1}}包:

RecordLinkage

问题是更多和内存不断用完,直到计算机完全冻结。有没有办法在“块”中自动进行处理,而不必事先将X手动拆分成合理的小尺寸并使用各个子集?

换句话说,是否有任何内置函数可以进行拆分和处理而无需事先做好?

1 个答案:

答案 0 :(得分:0)

嗯,最简单的解决方案可能是将nrows参数用于read.table(或CSV或其他)。将nrows设置为较小的值,然后遍历各个段,删除不需要的对象并随时调用gc()