为了使用tree()
,我可以为一个因子提供不超过32个级别。我的因素mydata$auction
超过32个级别。如何重新组合低频率的电平,例如< 10?
我试过了:
mydata$auction[count(n$freq)<10] <- "OTHER" # didn't do it right
levels(mydata$auction)[n<=10] <-"OTHER" # didn't do it right
这是数据的样子:
price sale_date ext_color mileage ZipCode RFL FLNDR auction region condition
1 25000 2004-01-06 BEIGE 3571 1 L L AAAI 3 RG
2 27500 2004-01-14 BEIGE 5654 6 R N KCAA 5 <NA>
3 26100 2004-01-14 BEIGE 5453 9 L L BCAA 6 <NA>
4 27000 2004-01-28 BEIGE 6400 8 L D DAA 5 <NA>
5 23300 2004-03-04 BEIGE 12445 9 L L SCAA 6 RG
6 28000 2004-03-11 BEIGE 3019 9 L L SCAA 6 AV
7 27300 2004-03-16 BEIGE 4377 1 L L AAAI 3 RG
8 25900 2004-03-16 BEIGE 6727 1 L L AAAI 3 RG
9 28200 2004-03-18 BEIGE 9962 4 L L GDTA 4 AV
10 26300 2004-03-18 BEIGE 13012 9 L L SCAA 6 AV
11 26400 2004-03-25 BEIGE 20473 4 L L GDTA 4 AV
12 26400 2004-03-25 BEIGE 20745 4 L L GDTA 4 AV
13 28000 2004-03-25 BEIGE 10995 4 L L GDTA 4 AV
14 28300 2004-03-31 BEIGE 8042 1 R N BAA 3 <NA>
15 28500 2004-04-01 BEIGE 5938 8 F F DAA 5 <NA>
16 26200 2004-04-07 BEIGE 6704 3 R N OCAA 1 <NA>
17 27300 2004-04-08 BEIGE 5495 4 R N CINA 4 <NA>
18 27700 2004-04-08 BEIGE 1301 9 R N SCAA 6 <NA>
19 28700 2004-04-08 BEIGE 5659 6 R N GCAA 4 <NA>
20 28000 2004-04-08 BEIGE 13032 6 L L SLAA 5 AV
21 26000 2004-04-08 BEIGE 23990 4 F F SAAA 5 AV
22 28300 2004-04-08 BEIGE 11025 4 F F BAA 3 <NA>
23 27700 2004-04-13 BEIGE 13129 6 L L SLAA 5 AV
24 27100 2004-04-13 BEIGE 8559 2 L L BWAE 3 CL
25 27500 2004-04-13 BEIGE 11647 6 L L SLAA 5 AV
26 26000 2004-04-13 BEIGE 2082 2 L L SVAA 2 <NA>
27 27400 2004-04-13 BEIGE 11977 6 L L SLAA 5 AV
28 26500 2004-04-13 BEIGE 18756 4 L L DETA 4 AV
29 27000 2004-04-13 BEIGE 10048 4 F F NSAA 4 <NA>
30 27200 2004-04-13 BEIGE 10490 4 F F NSAA 4 <NA>