变频标识符

时间:2015-02-21 00:47:33

标签: r

我是R的新手,刚从Stata转来。我目前拥有一个非常大的房产交易数据数据集,并希望确定特定房产在15年内被买卖的次数。我有超过950万笔交易,但我相信每个房产ID都会在此期间重复销售。复杂的是,我的数据集中的属性ID号看起来像这样:

{29727138-49F4-4BE3-93EC-09462F52858D}

我想首先看看这个特定的id(交易)是否再次出现,其次,我可以在初始销售价格旁边建立第二个交易价格的重复销售数据集。请参阅下表(左侧的属性唯一ID为#34; tid"旁边的相应销售价格为" sp")。任何人都可以如此友善地给我建议如何做到这一点?我真的很感激,因为我的所有想法似乎都会出现错误。

谢谢。

                   tid                       sp 
{29727138-49F4-4BE3-93EC-09462F52858D}   195000

{9D6C12EB-10AA-405B-8387-BA729A8E6FF3}   635000

{54FE95DD-9D52-482F-A25A-46DFE2E84238}   107000

{6145CF24-9961-49B7-9298-812E9EA2E806}   140000

1 个答案:

答案 0 :(得分:1)

假设您目前有一个名为' dat'的R数据帧。使用这些列,这将生成一个已售出多次的属性列表:

 proptbl <- table(dat$tid)
 multsales <- names(proptbl)[proptbl > 1]

如果您在输入时只使用了read。*函数的默认值,那么dat $ tid的值可能是因素,但在这种情况下这不应该有所不同。如果您希望将数据集缩减到更易于管理的比例,而您只查看具有多个销售的子集,则可以执行以下操作:

smldat <- dat[ dat$tid %in% multsales , ]