机器学习培训的视角

时间:2019-03-16 18:54:34

标签: machine-learning training-data

我只需要一些指导。我看到许多路线要走,我想看看什么是我最好的大道。所以从本质上讲,我有一个类似于此组的pandas数据框(组以4表示):

getpixel

所以基本上我想训练模型以根据上面的数据框选择相似的组。最终目标是我要给它一个庞大的数据集,并让它挑选出行来创建类似于上面的组。也许对其进行优化,以使其选择出与数值相似的数字。

最好的路线是什么?有监督无监督。线性.... k簇我需要在哪里指出我的研究。最好的步骤是什么。

1 个答案:

答案 0 :(得分:1)

我要采取的第一步是了解如何计算上述看起来相当明确的数据中的相似度。最基本的方法是运行聚类/分类算法(在您的情况下,大多数情况下不受监督)。就个人而言,即使您不知道如何进行,甚至k-means都可以相当准确地运行(DBSCAN是我的最爱)。我还将进行探索性分析(在您的情况下,自组织映射/ Kohonen映射可能有用)以了解数据的分布方式。

您要创建组并在进行聚类/分类后将组彼此比较,对吗?您还需要提出类似度数(例如KL Divergence)进行比较。

主要问题是提出一个“ k”来对数据进行聚类,但是我觉得您将需要尝试不同的值,并且您的直觉将起重要作用!

链接: SOM:https://www.ncbi.nlm.nih.gov/pubmed/16566459 DBSCAN:https://scikit-learn.org/stable/modules/clustering.html#dbscan KL散度/交叉熵损失:https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html