构造特征向量来学习集群

时间:2013-02-23 07:21:03

标签: cluster-analysis feature-extraction

示例:

文件{
引文:{
0:cite0,
1:引用1,
2:引用2,
...
n:引用N
}
}

我想根据引文的相似性来分组文档,但是每个文档都会有很多引用。我在这里的困惑是......在这种情况下,我如何构建数据集的特征向量,以将其提供给我的集群工具包。

我想让列成为引用,如果该文档有引用,则值为1。

PS。我在机器学习方面的背景非常薄弱 - 我正在阅读我的讲义,但大多数都没有涉及这类问题><谢谢大家!

1 个答案:

答案 0 :(得分:1)

构建特征向量的一种简单方法是创建邻接矩阵(比如A)。功能是二进制的。

每一行代表引用文件,专栏代表引用文件。因此,如果仅Document1引用Document3,则元素A(1,3)= 1,行的其余元素为0.

如果您处理的文档太多,这可能不是一种有效的方法。如果您有N个文档,则矩阵大小为NxN。

如果您正在编写自己的聚类算法,请使其接受更紧凑的表单(请参阅邻接列表)。