我正在处理一个相对较大的数据集(5个文件,每个2GB,给你一个数量级的表,其中一个表是1.5M行x 270列),我使用dplyr left_joint功能(在这些数据集和其他数据集之间)小桌子)。这些表包含我不想丢失的字符串数据。但是,使用处理大型数据集的包(如bigmemory或ff)会将字符串转换为因子,然后转换为数字,这意味着数据会丢失。有没有办法操纵那些文件(我的8GB内存)丢失信息?
答案 0 :(得分:1)
当您说使用因素时信息丢失时,我不明白。
例如,假设Stored as Number
是您的字符串列之一,您可以执行
str
所以,基本上你有整数作为查找表的索引来取回你的字符串。
但是,如果你使用big.matrix格式,你将无法使用 dplyr ,但我认为为你的特定情况重新实现左连接会相对容易。
答案 1 :(得分:0)
使用大型数据集探索R上任何类型处理的Data.tables。与R上的任何其他数据处理包相比,速度和效率是无与伦比的。