我不确定我是否在正确的地方提问,因为我是stackoverflow的新手,请在需要时移动。
我正在尝试解决Flickr数据集的链接预测问题。我的数据集有5K个节点,每个节点有大约27K个特征,它很稀疏。
我想找到节点之间的相似性,这样如果相似度值大于我决定的某个阈值,我就可以预测它们之间的链接。问题在于功能的数量。我无法在Weka中加载文件(试图通过某些信息增益或其他东西来减少功能,然后尝试聚类或检查是否存在余弦相似度)
还有一个问题是,如何将其定义为分类问题?我想找到两个节点的重叠标签,因此该表包含节点和它们的一些特征(将以千计为单位),所有这些都只是正类,因为我知道它们之间存在链接。
我想用一些节点创建测试数据集,并创建类似的表并将它们标记为正类或负类。但我的问题是我所拥有的所有数据都是正面的,所以我认为它永远不会被标记为负面。如何正确地将其更改为分类问题?
非常感谢任何指针或帮助。
答案 0 :(得分:0)
我的方法是: 1.出现新节点 2.搜索最相似的元素 3.假设相似性大于阈值,它们是相关的(有链接)。
主要问题是根据某些质量指标调整阈值。
对于这种方法,Lucene可能是最好的选择。
我希望这会有所帮助。