我是R的新手,刚从Stata转来。我目前拥有一个非常大的房产交易数据数据集,并希望确定特定房产在15年内被买卖的次数。我有超过950万笔交易,但我相信每个房产ID都会在此期间重复销售。复杂的是,我的数据集中的属性ID号看起来像这样:
{29727138-49F4-4BE3-93EC-09462F52858D}
我想首先看看这个特定的id(交易)是否再次出现,其次,我可以在初始销售价格旁边建立第二个交易价格的重复销售数据集。请参阅下表(左侧的属性唯一ID为#34; tid"旁边的相应销售价格为" sp")。任何人都可以如此友善地给我建议如何做到这一点?我真的很感激,因为我的所有想法似乎都会出现错误。
谢谢。
tid sp
{29727138-49F4-4BE3-93EC-09462F52858D} 195000
{9D6C12EB-10AA-405B-8387-BA729A8E6FF3} 635000
{54FE95DD-9D52-482F-A25A-46DFE2E84238} 107000
{6145CF24-9961-49B7-9298-812E9EA2E806} 140000
答案 0 :(得分:1)
假设您目前有一个名为' dat'的R数据帧。使用这些列,这将生成一个已售出多次的属性列表:
proptbl <- table(dat$tid)
multsales <- names(proptbl)[proptbl > 1]
如果您在输入时只使用了read。*函数的默认值,那么dat $ tid的值可能是因素,但在这种情况下这不应该有所不同。如果您希望将数据集缩减到更易于管理的比例,而您只查看具有多个销售的子集,则可以执行以下操作:
smldat <- dat[ dat$tid %in% multsales , ]