如何在pyspark地图中添加增量数字

时间:2016-07-12 20:31:09

标签: python apache-spark lambda pyspark rdd

我有这段代码:

import time
from datetime import datetime

ts = time.time()
dt = datetime.fromtimestamp(ts).strftime('%Y-%m-%d %H:%M:%S')

claims_data = data.map(lambda x: x.split(","))
claim_id = claims_data.map(lambda x: (
    x[9],
    'Claim_id',
    '0',
    'Claim_id',
    'Claim',
    1,
))

BeginDOS = claims_data.map(lambda x: (
    x[13],
    'BeginDOS',
    '0',
    'BeginDOS',
    'Claim',
    1,
))

我试图从现有的RDD中获取数据,这就是我尝试做的事情:

此代码示例提取单个列。 claim_id是x [9],BeginDOS是当前加载的称为data的RDD的x [13]。使用地图,我使用每列的静态数据创建新的RDD。随着时间的推移,我将添加更多地图。

我的问题是最后一个字段。在这些情况下,两者都难以达到数值1。

我需要的是实例化一个变量计数器,并用一个数字预加载该变量。我想在claim_idBeginDOS中使用该数字,但每次都会增加它。对于claim_id中的每条记录,它会递增,BeginDOS

也会递增

我该怎么做?

由于

更新#1。请求的源数据示例:

1,001,885,2HZL911L0,00,99,,L91279331,001,71,59404,03,MED,2014-05-28,2014-05-28,72885,7840,8460,8470,8471,8472,,920,920,0,0,2014-07-09,C,261435747,U,U6FIL,1,,2014-05-28,2014-05-28,12,0,R0129,845,845,0,U6FIL

感谢。

1 个答案:

答案 0 :(得分:0)

根据你的例子,我假设你希望你的指数是从1开始的(不是-0)。

如果是这样,这应该可以得到你想要的东西(可以将这个模板用于两个变量):

claim_ids = map(lambda x: (
    x[1][13],
    'BeginDOS',
    '0',
    'BeginDOS',
    'Claim',
    x[0]+1,
),enumerate(claims_data))

[('2014-05-28', 'BeginDOS', '0', 'BeginDOS', 'Claim', 1),
 ('2014-05-28', 'BeginDOS', '0', 'BeginDOS', 'Claim', 2)]

# the x used in the lambda is a tuple with (index#,value)