我对统计数据,R和一般的编程都很陌生,在深入投入之前只有一个短路线。不过,我很想为自己解决问题。
我的第一个任务是检查我因异常而获得的数据。我收到了一个包含Date
,PersonID
和PlaceID
列的电子表格。我假设如果我将PersonID
的每个因子与Date
相关联,则直线会显示没有异常,因为PersonID
应该只能在一个地方同时存在。但是,我担心如果一个PersonID
上有两个相同的Date
,我的情节就无法显示出来。
我使用了简单的代码:
require(ggplot2)
qplot(Date,PersonID)
我的问题是,我不确定如何将Date
纳入此问题。从本质上讲,我试图检查同一个PersonID
上多个PlaceID
中是否出现Date
,并且已经尝试了2天,无法弄清楚如何将所有3个这些变量在同一个图上。
我不是要求有人为我编写代码。我只是想知道我是否在正确的思路上,如果是这样的话,我应该如何考虑让R来绘制这个。有谁能够帮我?如果这个问题相当冗长,或者发布在错误的地方,请道歉。
答案 0 :(得分:1)
如果您只想知道数据集是否发生这种情况,请尝试duplicated()
。例如,假设您的数据框名为df
:
sum(duplicated(df[,c("Date","PersonID")]))
将根据数据框中的列Date
和PersonID
返回重复数字。如果它大于零,则表示数据中存在重复项。