Question

陷入困境。有两个数据集A和B.说它们是两个工厂的数据集。工厂A的表现非常好，而工厂B则没有。我有工厂A的数据集（数据从制造单位输出）以及工厂B，两者都有相同的变量。如何识别工厂B中需要修复的有问题的变量，以便工厂B也开始表现良好？因此，我需要确定需要立即关注的有问题的变量。

期待您的回复。

p.s：正在使用的编码语言是R

Answer 1

这是我帮助写的dataMaid包的无耻插件，以及你要问的那种。 dataMaid包的想法是对数据框中的变量进行一系列测试，并生成一个报告，人类调查员（最好是具有上下文知识的人）可以查看，以便识别潜在的问题

一个非常简单的入门方法是加载包并使用数据框上的clean函数（如果您尝试清理相同的数据）框架几次然后可能需要添加replace=TRUE 覆盖现有报告的参数）。

devtools::install_github("ekstroem/dataMaid")
library(dataMaid)
data(trees)
clean(trees)

这将创建一个报告，其中包含每个摘要和错误检查 trees数据框中的变量。提供了所有变量的摘要，并且trees数据看起来像这样

虽然每个变量的信息可能如下所示

在这里，我们获得有关变量类型，摘要统计信息，图表的状态，以及 - 在这种情况下 - 指示异常值可能存在问题。

通过运行对各个变量或数据集中所有变量的检查，也可以交互使用dataMaid包

data(toyData)
check(toyData$var2)  # Individual check of var2
check(toyData)       # Check all variables at once

默认情况下，标准电池测试运行取决于变量类型，但可以通过提供自己的检查来扩展包。

在你的情况下，我会在两个数据集上运行包以获得两份报告，这些报告中的任何重大差异都会引发一个关于可能存在问题的标志。