在拆分训练和测试数据集之前,机器学习中有多少种预处理技术?

时间:2019-08-03 11:37:10

标签: python-3.x machine-learning artificial-intelligence

机器学习中针对数据集存在多少种不同的预处理技术。我想定义一个通用模板,以帮助我对不同的问题进行预处理。

我对图像分类进行了一些操作,例如调整大小,rgb2灰度,找出虚拟图像,对两个图像进行处理,并将结果添加到数据集中。

我的目标是使用不同的技术来优化数据集。

2 个答案:

答案 0 :(得分:3)

有很多预处理技术,具体取决于您的数据集。其中一些技巧是:

  • 数据清除:通过诸如填写缺失值,平滑嘈杂数据或解决数据不一致之类的过程来清除数据。
  • 数据集成:具有不同表示形式的数据被放在一起并解决了数据中的冲突。
  • 数据转换:数据已规范化,汇总和概括。
  • 数据精简:此步骤旨在简化数据仓库中数据的表示形式。
  • 数据离散化:通过划分属性间隔的范围来减少连续属性的数量。

答案 1 :(得分:0)

预处理是一个非常宽泛的术语,更重要的是,预处理可能在很大程度上取决于您要对数据进行的处理(例如,裁剪出人脸以进行人脸识别任务)以及数据本身因为您可能有一个需要非常特定类型的预处理的数据集-例如从图像的一角删除水印。

话虽如此,here是我发现的有用指南。我认为您已经完成了大部分被视为一般预处理的工作。