我有一个数据集,其中包含日期变量,定量和定性预测变量以及二进制因变量。我分析的目的是找到CORRECT
成功的百分比,并进一步了解CORRECT
与自变量之间的关系。
有些人我们可以称为遍布美国的追踪器。每个人都有一项工作,即在他们所在的位置跟踪我们计划参与者的地址。问题是这些跟踪器中的某些跟踪器没有定期更新其负责的参与者组的地址。他们数据库中的某些地址可能已经过时或以其他方式不正确。我希望进一步研究这些正确/不正确的地址以及它们与其他变量之间的关系。以下是数据集中的一些变量:
CORRECT
:一个二进制变量,用于指示RECORDER是否输入了正确的地址RECORDER_ADDRESS
:记录者为参与者输入其数据库中的地址ACTUAL_ADDRESS
:参与者实际所在的地址ZIP_CODE
:参与者的邮政编码PARTICIPANT_ID
:与会人员的唯一ID CREATED_DATE
:记录参与者的初始地址的日期MODIFIED_DATE
:修改任何变量的日期PARTICIPANT_START_DATE
:工作参与者的开始日期PARTICIPANT_END_DATE
:此参与者职责的结束日期RECORDER
:负责跟踪此条目的记录器的名称TRAINING
:参与者接受的培训类型我已经计算出RECORDER
的准确性。我发现大约56%的时间它们是正确的。现在,我试图更多地寻找这些不正确和正确的地址。我曾尝试使用逻辑回归来预测CORRECT
,但没有一个预测变量很重要。我使用CORRECT
变量和STATE
以及CORRECT
和RECORDER
制作了一个堆积的条形图。现在,我要使用四个日期变量以及ZIP_CODE
,RECORDER_ADDRESS
和ACTUAL_ADDRESS
来了解RECORDERS
的成功和失败。是否有一些可视化的想法或分析可以使用日期变量和/或地址变量来获取有关正确/不正确记录的见解?
可以使用的想法是创建另一个变量,该变量的时间差为CREATED_DATE
和MODIFIED_DATE
。 PARTICIPANT_START_DATE
和MODIFIED_DATE
的另一个区别。