我有来自远程信息处理设备的数据,其中包含驱动程序ID,时间戳和一些与我的示例无关的传感器数据。
我想从这些数据创建路径标识符和记录计数器,以便为每个驱动程序计算每条路径的统计信息。我们在Hortonworks HDP 2.2.6.0平台的YARN集群上使用pyspark 1.2.1。
我的数据看起来像这样,它是一对RDD,这两个元素是关键:
| driverID | timestamp |
| D1 | 1 |
| D1 | 2 |
| D1 | 6 |
| D1 | 8 |
| D2 | 1 |
| D2 | 3 |
| D2 | 4 |
| D2 | 7 |
我想得到runID和sequenceID列,假设3个时间单位的延迟开始新的运行
| driverID | timestamp | runID | sequenceID
| D1 | 1 | 1 |1
| D1 | 2 | 1 |2
| D1 | 6 | 2 |1
| D1 | 8 | 2 |2
| D2 | 1 | 1 |1
| D2 | 3 | 1 |2
| D2 | 4 | 1 |3
| D2 | 7 | 2 |1
你建议我做什么?这将最终用于TB级数据集。驱动程序ID是一个字符串,时间戳实际上是一个日期时间对象。
感谢您的帮助