应用错误收集

我不确定我是否在正确的地方提问，因为我是stackoverflow的新手，请在需要时移动。

我正在尝试解决Flickr数据集的链接预测问题。我的数据集有5K个节点，每个节点有大约27K个特征，它很稀疏。

我想找到节点之间的相似性，这样如果相似度值大于我决定的某个阈值，我就可以预测它们之间的链接。问题在于功能的数量。我无法在Weka中加载文件（试图通过某些信息增益或其他东西来减少功能，然后尝试聚类或检查是否存在余弦相似度）

还有一个问题是，如何将其定义为分类问题？我想找到两个节点的重叠标签，因此该表包含节点和它们的一些特征（将以千计为单位），所有这些都只是正类，因为我知道它们之间存在链接。

我想用一些节点创建测试数据集，并创建类似的表并将它们标记为正类或负类。但我的问题是我所拥有的所有数据都是正面的，所以我认为它永远不会被标记为负面。如何正确地将其更改为分类问题？

非常感谢任何指针或帮助。