R中的预处理数据

时间:2015-01-28 15:21:25

标签: r

我使用R来创建逻辑回归分类器模型。

以下是代码示例:

library(ROCR)
DATA_SET <- read.csv('E:/1.csv')

classOneCount= 4000
classZeroCount = 4000
sample.churn <- sample(which(DATA_SET$Class==1),classOneCount)
sample.nochurn <- sample(which(DATA_SET$Class==0),classZeroCount )

train.set <- DATA_SET[c(sample.churn,sample.nochurn),]
test.set  <- DATA_SET[c(-sample.churn,-sample.nochurn),]
full.logit <- glm(Class~., data = train.set, family = binomial)

它工作正常,但我想预处理数据,看它是否改进了分类模型。

我想做的是将连续的输入矢量变量划分为间隔。让我们说一个变量是漂浮的厘米高度。

高度的示例值:

183.23 173.43 163.53 153.63 193.27

依此类推,我想把它分成3个不同的间隔:小,中,大。

用我的集合中的所有变量来做 - 有32个变量。

我还希望看到变量值(此区间)与分类结果类之间的最终相关性。

这是清楚的吗?

非常感谢您提前

1 个答案:

答案 0 :(得分:0)

分类模型创建了一些决策边界,现有算法非常擅长估算它。假设您有一个变量 - 高度 - 和线性决策边界。然后,您的算法可以通过估计训练集上的误差来决定在哪个值之间放置决策边界。如果执行量化并创建几个间隔,则算法放置边界的位置较少(数据丢失)。在这样的裁剪数据集上,它可能比在原始数据集上表现更差。如果您的学习算法遇到高方差(过度拟合数据),那么它可能会有所帮助,但您也可以尝试获取更多训练示例,使用较小的特征集(子集)或使用正则化算法并增加正则化参数

关于如何选择间隔数以及如何将数据划分为以下内容,还有很多问题:如果所有间隔在每个间隔内是相同频率或宽度相等或彼此最相似?

如果你只想尝试使用像f.e.这样的软件。免费版RapidMiner Studio(它可以读取CSV和Excel文件并有一些快速量化选项)来转换数据