我有一个包含以下功能的数据集:持续时间连接,IP,持续时间 - 登录。
持续时间连接和持续时间 - 登录是连续变量,但IP是一个包含计算机IP地址的插入变量。
我想为这些功能创建一个相关矩阵。但我不确定cor()是否可以将IP功能用作非连续变量。
对这个问题有任何想法。
谢谢
答案 0 :(得分:0)
它不会工作;试试
> cor(iris)
Error in cor(iris) : 'x' must be numeric
您可以将您的IP地址转换为数字数据(例如,使用与因子级别相关联的数值作为数值),但问题在于IP地址上的计算(Pearsson)相关性没有多大意义。例如。一组IP地址的平均值是多少? (即,它是一个没有距离度量的无序集。)
根据你想要做的事情,我要么从关联计算中结束IP地址(也可能在某些逻辑上设置IP地址集的层次结构并对其进行比较)或者对连续变量进行聚类,看看是什么这需要IP地址。同样,这取决于你的目标,但我认为这不仅仅是R机制的问题。