从时间戳创建路由标识符

时间:2015-07-15 15:57:18

标签: python datetime apache-spark yarn pyspark

我有来自远程信息处理设备的数据,其中包含驱动程序ID,时间戳和一些与我的示例无关的传感器数据。

我想从这些数据创建路径标识符和记录计数器,以便为每个驱动程序计算每条路径的统计信息。我们在Hortonworks HDP 2.2.6.0平台的YARN集群上使用pyspark 1.2.1。

我的数据看起来像这样,它是一对RDD,这两个元素是关键:

| driverID | timestamp |  
| D1        | 1         |  
| D1        | 2         |  
| D1        | 6         |  
| D1        | 8         |  
| D2        | 1         |  
| D2        | 3         |  
| D2        | 4         |  
| D2        | 7         |  

我想得到runID和sequenceID列,假设3个时间单位的延迟开始新的运行

| driverID | timestamp | runID | sequenceID  
| D1        | 1         | 1     |1  
| D1        | 2         | 1     |2  
| D1        | 6         | 2     |1  
| D1        | 8         | 2     |2  
| D2        | 1         | 1     |1  
| D2        | 3         | 1     |2  
| D2        | 4         | 1     |3  
| D2        | 7         | 2     |1  

你建议我做什么?这将最终用于TB级数据集。驱动程序ID是一个字符串,时间戳实际上是一个日期时间对象。

感谢您的帮助

0 个答案:

没有答案