我有一个大约800万个观测数据和5个字符变量的数据集“X” - 称它们为A,B,C,D和E.我试图用{{来计算D和E之间的jaro-winkler统计数据1}}包:
RecordLinkage
问题是更多和内存不断用完,直到计算机完全冻结。有没有办法在“块”中自动进行处理,而不必事先将X手动拆分成合理的小尺寸并使用各个子集?
换句话说,是否有任何内置函数可以进行拆分和处理而无需事先做好?
答案 0 :(得分:0)
嗯,最简单的解决方案可能是将nrows
参数用于read.table
(或CSV或其他)。将nrows设置为较小的值,然后遍历各个段,删除不需要的对象并随时调用gc()
。