Question

我是R的新手，刚从Stata转来。我目前拥有一个非常大的房产交易数据数据集，并希望确定特定房产在15年内被买卖的次数。我有超过950万笔交易，但我相信每个房产ID都会在此期间重复销售。复杂的是，我的数据集中的属性ID号看起来像这样：

{29727138-49F4-4BE3-93EC-09462F52858D}

我想首先看看这个特定的id（交易）是否再次出现，其次，我可以在初始销售价格旁边建立第二个交易价格的重复销售数据集。请参阅下表（左侧的属性唯一ID为＃34; tid＆＃34;旁边的相应销售价格为＆＃34; sp＆＃34;）。任何人都可以如此友善地给我建议如何做到这一点？我真的很感激，因为我的所有想法似乎都会出现错误。

谢谢。

                   tid                       sp 
{29727138-49F4-4BE3-93EC-09462F52858D}   195000

{9D6C12EB-10AA-405B-8387-BA729A8E6FF3}   635000

{54FE95DD-9D52-482F-A25A-46DFE2E84238}   107000

{6145CF24-9961-49B7-9298-812E9EA2E806}   140000

Answer 1

假设您目前有一个名为＆＃39; dat＆＃39;的R数据帧。使用这些列，这将生成一个已售出多次的属性列表：

 proptbl <- table(dat$tid)
 multsales <- names(proptbl)[proptbl > 1]

如果您在输入时只使用了read。*函数的默认值，那么dat $ tid的值可能是因素，但在这种情况下这不应该有所不同。如果您希望将数据集缩减到更易于管理的比例，而您只查看具有多个销售的子集，则可以执行以下操作：

smldat <- dat[ dat$tid %in% multsales , ]

变频标识符

1 个答案: