Question

我有来自远程信息处理设备的数据，其中包含驱动程序ID，时间戳和一些与我的示例无关的传感器数据。

我想从这些数据创建路径标识符和记录计数器，以便为每个驱动程序计算每条路径的统计信息。我们在Hortonworks HDP 2.2.6.0平台的YARN集群上使用pyspark 1.2.1。

我的数据看起来像这样，它是一对RDD，这两个元素是关键：

| driverID | timestamp |  
| D1        | 1         |  
| D1        | 2         |  
| D1        | 6         |  
| D1        | 8         |  
| D2        | 1         |  
| D2        | 3         |  
| D2        | 4         |  
| D2        | 7         |

我想得到runID和sequenceID列，假设3个时间单位的延迟开始新的运行

| driverID | timestamp | runID | sequenceID  
| D1        | 1         | 1     |1  
| D1        | 2         | 1     |2  
| D1        | 6         | 2     |1  
| D1        | 8         | 2     |2  
| D2        | 1         | 1     |1  
| D2        | 3         | 1     |2  
| D2        | 4         | 1     |3  
| D2        | 7         | 2     |1

你建议我做什么？这将最终用于TB级数据集。驱动程序ID是一个字符串，时间戳实际上是一个日期时间对象。

感谢您的帮助

从时间戳创建路由标识符

0 个答案: