基于自动编码器的无监督聚类

时间:2017-10-24 08:02:05

标签: cluster-analysis autoencoder loss-function

我正在尝试使用编码器对数据集进行聚类,因为我是这个领域的新手,我不知道该怎么做。我的主要问题是如何定义损失函数,因为数据集是未标记的,最多知道,什么我从参考书目中看到他们将损失函数定义为所需输出与预测输出之间的距离。我的问题是,由于我没有所需的输出,我该如何实现呢?

1 个答案:

答案 0 :(得分:0)

您可以使用自动编码器预先训练卷积层,就像我在问题here中描述的那样使用卷积自动编码器来处理图像

正如你可以看到表单代码一样,损失函数是具有度量精度和骰子系数的Adam,我认为你只能使用精度,因为骰子系数是图像特定的

我不确定它是如何对你有用的,因为你没有提供你的想法如何将你的书目列表转换为矢量,也许你会创建一个列表,其中的参考书目id按它们之间的余弦距离排序< / p>

例如,对于数据集中的每个引用,您可以使用一组带有余弦距离的向量到上面的参考书目列表中的每个项目,并将其用作自动编码器的输入

在训练编码器之后,您可以从模型输出中删除解码器部分,并将其用作无监督聚类算法之一的输入,例如k-mean。您可以找到有关他们的详细信息here