应用错误收集

时间：2013-02-23 07:21:03

标签： cluster-analysis feature-extraction

示例：

文件{
引文：{
0：cite0，
1：引用1，
2：引用2，
...
n：引用N
}
}

我想根据引文的相似性来分组文档，但是每个文档都会有很多引用。我在这里的困惑是......在这种情况下，我如何构建数据集的特征向量，以将其提供给我的集群工具包。

我想让列成为引用，如果该文档有引用，则值为1。

PS。我在机器学习方面的背景非常薄弱 - 我正在阅读我的讲义，但大多数都没有涉及这类问题＆gt;＆lt;谢谢大家！

答案 0 :(得分：1)

构建特征向量的一种简单方法是创建邻接矩阵（比如A）。功能是二进制的。

每一行代表引用文件，专栏代表引用文件。因此，如果仅Document1引用Document3，则元素A（1,3）= 1，行的其余元素为0.

如果您处理的文档太多，这可能不是一种有效的方法。如果您有N个文档，则矩阵大小为NxN。

如果您正在编写自己的聚类算法，请使其接受更紧凑的表单（请参阅邻接列表）。