我有一个由apx组成的数据框。 20 Mio.行!该表如下所示:
Output_I
cusip_id price
uidiso 100.5
undnns 90.2
xsodeid 45.5
uidiso 99.5
xsodeid 45.1
undnns 90.0
现在我有第二个数据框,包括cusip_id和附加信息:
ouput_II
cusip_id ISIN
uidiso xs987346325
undnns ch438763282
xsodeid xs937349494
我想基于cusip_id将output_I与output_II合并,以获得以下结果:
output_III
cusip_id price ISIN
uidiso 100.5 xs987346325
undnns 90.2 ch438763282
xsodeid 45.5 xs937349494
uidiso 99.5 xs987346325
xsodeid 45.1 xs937349494
undnns 90.0 ch438763282
挑战是output_I的大小,它由apx组成。 20 mio。线。我试过以下代码:
library(dplyr)
output_III= left_join(output_I, output_II, by="cusip_id")
library(data.table)
ldt = data.table::data.table(output_I)
rdt = data.table::data.table(output_II, key = c("cusip_id", "ISIN")
output_III= merge(ldt, rdt)
是否有可能使用dplyr和group_by?
或者这么大的数据框架是不可能的?
感谢您的反馈意见。