我有一个包含50M行的transaction
表,其中包含以下几个示例字段:
buyer_id month day hour location seller_id
我需要反复对此表格进行排序,以便找到每个买家最受欢迎的卖家,地点,月份等,并创建一个新的summary
表格。
然后我需要将summary
表合并到transaction
表,以找出哪些卖家在最常见的位置等地区最受欢迎。
每次,我都必须根据几组列重新排序transaction table
。所以我最终可能会多次排序setorder(transaction, user_id, month, location)
。
我知道data.table通过引用创建顺序(有点保留在隐藏列中),而不复制表。
有没有办法明确地存储和引用这些“隐藏列”,这样我就不必以相同的方式多次使用数据?