我有一个包含多个列的数据集,包括ID,键1,方向,日期,大小。我正在尝试编写一个算法来为组创建一个GroupID,我可以匹配方向相反的地方,日期是等价的,我不能匹配部分大小,虽然我可以在同一个方向上取两行来总和以匹配大小是等价的。我也在努力扩大规模。作为下面的例子,我最终会得到如下的GroupID 1。
|ID |direction |size |key1 |date |GroupID
--------------------------------------------------------
| 12345 |1 |100 |1.1 |01/01/2016 |1
| 22356 |0 |50 |1.1 |01/01/2016 |1
| 54686 |0 |50 |1.1 |01/01/2016 |1
| 78468 |1 |50 |5.2 |01/01/2016 |NA
人们对于为匹配创建GroupID的方法提供一些有效方法有一些想法吗?
其次,我是否能够进行部分匹配(更简单的问题)最快的方法是什么?
|ID |direction |size |key1 |date |GroupID
--------------------------------------------------------
| 12345 |1 |100 |1.1 |02/01/2016 |2
| 22356 |0 |50 |1.1 |02/01/2016 |2
| 54686 |0 |25 |1.1 |02/01/2016 |2