陷入困境。有两个数据集A和B.说它们是两个工厂的数据集。工厂A的表现非常好,而工厂B则没有。我有工厂A的数据集(数据从制造单位输出)以及工厂B,两者都有相同的变量。如何识别工厂B中需要修复的有问题的变量,以便工厂B也开始表现良好?因此,我需要确定需要立即关注的有问题的变量。
期待您的回复。
p.s:正在使用的编码语言是R
答案 0 :(得分:1)
这是我帮助写的dataMaid
包的无耻插件,以及你要问的那种。 dataMaid
包的想法是对数据框中的变量进行一系列测试,并生成一个报告,人类调查员(最好是具有上下文知识的人)可以查看,以便识别潜在的问题
一个非常简单的入门方法是加载包并使用
数据框上的clean
函数(如果您尝试清理相同的数据)
框架几次然后可能需要添加replace=TRUE
覆盖现有报告的参数)。
devtools::install_github("ekstroem/dataMaid")
library(dataMaid)
data(trees)
clean(trees)
这将创建一个报告,其中包含每个摘要和错误检查
trees
数据框中的变量。提供了所有变量的摘要,并且trees
数据看起来像这样
虽然每个变量的信息可能如下所示
在这里,我们获得有关变量类型,摘要统计信息,图表的状态,以及 - 在这种情况下 - 指示异常值可能存在问题。
通过运行对各个变量或数据集中所有变量的检查,也可以交互使用dataMaid
包
data(toyData)
check(toyData$var2) # Individual check of var2
check(toyData) # Check all variables at once
默认情况下,标准电池测试运行取决于 变量类型,但可以通过提供自己的检查来扩展包。
在你的情况下,我会在两个数据集上运行包以获得两份报告,这些报告中的任何重大差异都会引发一个关于可能存在问题的标志。