在R

时间:2015-05-12 11:08:33

标签: r sorting data.table

我有一个包含50M行的transaction表,其中包含以下几个示例字段:

buyer_id  month day hour location seller_id

我需要反复对此表格进行排序,以便找到每个买家最受欢迎的卖家,地点,月份等,并创建一个新的summary表格。

然后我需要将summary表合并到transaction表,以找出哪些卖家在最常见的位置等地区最受欢迎。

每次,我都必须根据几组列重新排序transaction table。所以我最终可能会多次排序setorder(transaction, user_id, month, location)

我知道data.table通过引用创建顺序(有点保留在隐藏列中),而不复制表。

有没有办法明确地存储和引用这些“隐藏列”,这样我就不必以相同的方式多次使用数据?

0 个答案:

没有答案