我可以在半中级使用python和R ...... 我一直想知道这个问题的主题:
这可能吗?在没有给定数据集的预设实体定义的情况下识别此类事物?让我们以会计记录为例。我有“x”量的记录,我想检测任何对数据集不是“自然”的记录。有没有办法对系统进行编码 - 假设您没有先前的数据,这些记录被标记为不正常?
答案 0 :(得分:2)
你的问题很广泛。最终你要求无监督学习而不是监督学习。答案将取决于“这些记录如何不自然”或自然意味着什么。 如果没有更好的起点或模式,则可以从聚类分析开始。如果到目前为止大多数记录都是自然的,因为它们距离很远,而且很少有oultier远离,集群分析将帮助您找到这些记录。 有趣的是,您如何根据手头的每个问题定义“距离”。
一个显而易见的起点是hclust
中的函数R
,您将在群集分析的CRAN任务视图中找到各种高质量的包:https://cran.r-project.org/web/views/Cluster.html
答案 1 :(得分:1)
在所有严肃的统计书中都会找到一句话:了解您的数据。它的一部分工作(大部分时间是最大的部分)来清理和了解您的数据。因此,没有中继标准程序,但有一些提示:
table
您可以在此处找到更多技术讨论:How to remove outliers from a dataset或此处的一些教程https://www.r-bloggers.com/identify-describe-plot-and-remove-the-outliers-from-the-dataset/
Hth ben