如何找到大量功能的相似性

时间:2013-04-22 13:06:17

标签: dataset data-mining flickr

我不确定我是否在正确的地方提问,因为我是stackoverflow的新手,请在需要时移动。

我正在尝试解决Flickr数据集的链接预测问题。我的数据集有5K个节点,每个节点有大约27K个特征,它很稀疏。

我想找到节点之间的相似性,这样如果相似度值大于我决定的某个阈值,我就可以预测它们之间的链接。问题在于功能的数量。我无法在Weka中加载文件(试图通过某些信息增益或其他东西来减少功能,然后尝试聚类或检查是否存在余弦相似度)

还有一个问题是,如何将其定义为分类问题?我想找到两个节点的重叠标签,因此该表包含节点和它们的一些特征(将以千计为单位),所有这些都只是正类,因为我知道它们之间存在链接。

我想用一些节点创建测试数据集,并创建类似的表并将它们标记为正类或负类。但我的问题是我所拥有的所有数据都是正面的,所以我认为它永远不会被标记为负面。如何正确地将其更改为分类问题?

非常感谢任何指针或帮助。

1 个答案:

答案 0 :(得分:0)

Weka可以处理27K功能,它不是一个问题...但是,我会将此问题作为分类问题,但是链接发现一个,在这种情况下可以看作匹配问题

我的方法是:  1.出现新节点  2.搜索最相似的元素  3.假设相似性大于阈值,它们是相关的(有链接)。

主要问题是根据某些质量指标调整阈值。

对于这种方法,Lucene可能是最好的选择。

我希望这会有所帮助。