我是R的新人, 而我的问题是我没有任何真实世界的经验。 我的意思是,我学到了很多,但是当我得到一个新的任务来处理时,我总是在苦苦挣扎。 一般来说,我在说,如何开始处理新任务。
有时数据集是如此之大(令人惊讶:) :)我无法获得有关它的全景 通常使用的函数,如str(),summarize(),head(),tail()可能来自包dplyr的sample_n 不足以令我满意。
我在网上发现的几乎所有例子都是关于几乎完美的数据集。 如果我们需要清理数据,我们可以相对容易地识别基本问题,因为 问题是明确的,你可以在检查head()或其他东西时实现它们。
现实世界数据怎么样? 如果列在数据集的中间移动,或者 有些行的值包含不合适的符号或空格或某物(工资,价格,电话号码等)?
总结: - 熟悉数据集的一般方法是什么(假设我们已经知道了) 变量的含义是什么,因为我们对它有描述)? - 你有一般的检查方法吗?
我知道我没有两个类似的项目 我对你的基本工作流程(有一些例子或解释)非常感兴趣。
提前谢谢