Question

我有一个由apx组成的数据框。 20 Mio.行！该表如下所示：

Output_I
    cusip_id    price
    uidiso      100.5
    undnns      90.2
    xsodeid     45.5
    uidiso      99.5
    xsodeid     45.1
    undnns      90.0

现在我有第二个数据框，包括cusip_id和附加信息：

ouput_II
    cusip_id    ISIN
    uidiso      xs987346325
    undnns      ch438763282
    xsodeid     xs937349494

我想基于cusip_id将output_I与output_II合并，以获得以下结果：

    output_III
    cusip_id    price   ISIN
    uidiso  100.5   xs987346325
    undnns  90.2    ch438763282
    xsodeid 45.5    xs937349494
    uidiso  99.5    xs987346325
    xsodeid 45.1    xs937349494
    undnns  90.0    ch438763282

挑战是output_I的大小，它由apx组成。 20 mio。线。我试过以下代码：

library(dplyr)
output_III= left_join(output_I, output_II, by="cusip_id")


library(data.table)
ldt = data.table::data.table(output_I)
rdt = data.table::data.table(output_II, key = c("cusip_id", "ISIN")
output_III= merge(ldt, rdt)

是否有可能使用dplyr和group_by？

或者这么大的数据框架是不可能的？

感谢您的反馈意见。

从其他数据框添加列

0 个答案: