检测不规则或所谓的轮廓

时间:2016-10-14 13:57:30

标签: python r statistics

亲爱的男孩和女孩,亲爱的,如果问题不在正确的地方,我会道歉(谈论正确的论坛 - stackoverflow等)

我可以在半中级使用python和R ...... 我一直想知道这个问题的主题:

  1. 如果我有一个数据集,我可以建立一个统计模型,那么一切都很好。我建立模型,测试它,再次测试它,制作记分卡和噗。
  2. 我想知道......有没有一种方法(理论上或甚至实际上)检测数据中的不规则/大纲,而没有先前的数据集(例如)你可以建立统计模型。我的意思是一种方法,不包括检查4亿条记录并标记不相关的记录,然后做一些有效的工作。
  3. 这可能吗?在没有给定数据集的预设实体定义的情况下识别此类事物?让我们以会计记录为例。我有“x”量的记录,我想检测任何对数据集不是“自然”的记录。有没有办法对系统进行编码 - 假设您没有先前的数据,这些记录被标记为不正常?

2 个答案:

答案 0 :(得分:2)

你的问题很广泛。最终你要求无监督学习而不是监督学习。答案将取决于“这些记录如何不自然”或自然意味着什么。 如果没有更好的起点或模式,则可以从聚类分析开始。如果到目前为止大多数记录都是自然的,因为它们距离很远,而且很少有oultier远离,集群分析将帮助您找到这些记录。 有趣的是,您如何根据手头的每个问题定义“距离”。

一个显而易见的起点是hclust中的函数R,您将在群集分析的CRAN任务视图中找到各种高质量的包:https://cran.r-project.org/web/views/Cluster.html

答案 1 :(得分:1)

在所有严肃的统计书中都会找到一句话:了解您的数据。它的一部分工作(大部分时间是最大的部分)来清理和了解您的数据。因此,没有中继标准程序,但有一些提示:

  • 数值数据:制作大量情节,如箱形图,散点图,直方图等。
  • 分类数据:进行一些计数,例如使用table

您可以在此处找到更多技术讨论:How to remove outliers from a dataset或此处的一些教程https://www.r-bloggers.com/identify-describe-plot-and-remove-the-outliers-from-the-dataset/

Hth ben