如何管理混合数据类型的因子

时间:2015-05-25 14:27:02

标签: r factors

我担心这个问题有两个子部分。我的项目是根据CPT代码确定哪个保险公司的成本最低。由于CPT代码太多了,我想用这样的方法对它们进行分组:

uCPTCode<- unique(data$CPTCode)
uCPTCode <- cut(uCPTCode, 
                   breaks = c(-Inf, "01999",    "69979",    "79999",     "89398",                "99091",   "99499",                  Inf), 
                   labels = c("NA","Anesthesia", "Surgery", "Radiology", "Pathology&Laboratory", "Medicine","Evaluation&Management", "Temp"), 
                   right = FALSE)

不确定唯一是必需的还是明智的,但似乎对我有意义。问题是某些代码具有前导零和终止字母,如此

2608 Levels: 0014F 0159T 0164T 0191T 0195T 0232T 0319T 0326T 0513F 0517F 0518F

所以问题1是将这些范围转换成与切割函数中的标签相对应的整数的过程是什么,所以我可以将分组结果绘制成x轴?

问题2是我预期范围是连续的,但事实并非如此。如何管理代码99000到99216周围发生的事情,以前的团体(医学,麻醉学和评估与管理)结合在一起?以下是CPT分组文件https://www.dropbox.com/s/wm55n17pufoacww/CPTGrouper.xlsx?dl=0的链接 这里有一些结果可以看出我的目标 https://www.dropbox.com/s/h6sdnvm9yew6jdg/SampleStudyResults.xlsx?dl=0

非常感谢您的时间和精力

0 个答案:

没有答案