使用R比较好的和坏的数据集

时间:2017-08-22 11:40:49

标签: r dataset comparison

陷入困境。有两个数据集A和B.说它们是两个工厂的数据集。工厂A的表现非常好,而工厂B则没有。我有工厂A的数据集(数据从制造单位输出)以及工厂B,两者都有相同的变量。如何识别工厂B中需要修复的有问题的变量,以便工厂B也开始表现良好?因此,我需要确定需要立即关注的有问题的变量。

期待您的回复。

p.s:正在使用的编码语言是R

1 个答案:

答案 0 :(得分:1)

这是我帮助写的dataMaid包的无耻插件,以及你要问的那种。 dataMaid包的想法是对数据框中的变量进行一系列测试,并生成一个报告,人类调查员(最好是具有上下文知识的人)可以查看,以便识别潜在的问题

一个非常简单的入门方法是加载包并使用 数据框上的clean函数(如果您尝试清理相同的数据) 框架几次然后可能需要添加replace=TRUE 覆盖现有报告的参数)。

devtools::install_github("ekstroem/dataMaid")
library(dataMaid)
data(trees)
clean(trees)

这将创建一个报告,其中包含每个摘要和错误检查 trees数据框中的变量。提供了所有变量的摘要,并且trees数据看起来像这样

enter image description here

虽然每个变量的信息可能如下所示

enter image description here

在这里,我们获得有关变量类型,摘要统计信息,图表的状态,以及 - 在这种情况下 - 指示异常值可能存在问题。

通过运行对各个变量或数据集中所有变量的检查,也可以交互使用dataMaid

data(toyData)
check(toyData$var2)  # Individual check of var2
check(toyData)       # Check all variables at once

默认情况下,标准电池测试运行取决于 变量类型,但可以通过提供自己的检查来扩展包。

在你的情况下,我会在两个数据集上运行包以获得两份报告,这些报告中的任何重大差异都会引发一个关于可能存在问题的标志。