我是数据挖掘的新手。据我所知,大多数技术都适用于大型数据集,但我很想知道这是必须的还是仅仅是一般规则。换句话说,在小型数据集中使用数据挖掘技术是否可以?大多数示例都在小表中工作,但是有任何限制吗?为什么呢?
答案 0 :(得分:2)
大多数数据挖掘技术都是统计方法。
要获得重要的模式,您需要足够的数据。否则,任何措施也可能只是由于偶然的随机偏差。您拥有的数据越多, 的模式就越好。
但是大多数数据并不是很大的数据。在大数据的意义上:很多方法都无法扩展到真正的大数据集。在大多数情况下,您只有几千(不是几个exabyte)的数据;特别是在将数据预处理成所需格式之后。
答案 1 :(得分:2)
据我所知,大多数技术都适用于大数据 套装,但我很想知道这是必须还是只是一般 规则。
在小数据集上使用数据挖掘技术不符合规则"因为没有关于数据集大小的规则。但是,这个建议来自效率和准确性!
假设您正在使用预测引擎,并且为了让您完成所有用例,您需要提出一些规则。现在数据,您正在构建预测模型,因此,您将数据切割为两组,其中第一组是您的训练集,另一组是您的测试集。
您的数据集用于接受信用卡申请,您可以查看信用记录,年龄,收入和其他10个因素!然后是历史上批准或拒绝的结果!
对于上一个问题,您有一组1000行,您使用800训练系统并使用200进行测试。您的模型的AUC是什么。不管它是什么,它都不是真的,因为地球上没有任何方法可以涵盖所有用例,因此,数据越大,挖掘模型就越好!
答案 2 :(得分:2)
这取决于您要解决的问题。数据挖掘领域非常庞大,但在机器学习技术的背景下,拥有“好”数据集非常重要。在机器学习中,具有冷启动可以导致模型的创建(=算法通过训练学习的隐式规则)不太稳健,因为训练数据量不足以推广其他新观察。
超过数据量,您就会遇到质量问题。如果您的数据不平衡,错误或与问题解决无关(就特征相关性而言),那么数据集大小无关紧要(或者无论如何都需要大量的数据清理和规范化)。
因此,数据量是一个问题,尤其是在与数据质量问题相结合时。通常,它们之间存在平衡,因为生成高质量的数据会带来成本。您可以阅读更多here
答案 3 :(得分:1)
您可以使用小型数据集。例如,quinlan在他的实验中使用了有趣的高尔夫数据集,其中只有14个例子。但在这种情况下,您需要创建或使用可以正确反映实验的小型数据集。
还有一点小数据集无法验证您的结果。要验证您的学习算法或训练模型,您需要足够的数据。您拥有的数据越多,您的模型就越准确