示例:
文件{我想根据引文的相似性来分组文档,但是每个文档都会有很多引用。我在这里的困惑是......在这种情况下,我如何构建数据集的特征向量,以将其提供给我的集群工具包。
我想让列成为引用,如果该文档有引用,则值为1。
PS。我在机器学习方面的背景非常薄弱 - 我正在阅读我的讲义,但大多数都没有涉及这类问题><谢谢大家!
答案 0 :(得分:1)
构建特征向量的一种简单方法是创建邻接矩阵(比如A)。功能是二进制的。
每一行代表引用文件,专栏代表引用文件。因此,如果仅Document1
引用Document3
,则元素A(1,3)= 1,行的其余元素为0.
如果您处理的文档太多,这可能不是一种有效的方法。如果您有N个文档,则矩阵大小为NxN。
如果您正在编写自己的聚类算法,请使其接受更紧凑的表单(请参阅邻接列表)。