我有一些整数的高维(30000维)向量。我有2个班:[是,否]。我有6000个YES级样品和50000个NO级样品。我想训练一个分类器,将以后的新样本自动分类到其中一个类。
我知道如何使用Weka Java API,但我不确定使用哪种算法。任何人都可以就以下问题给我建议:
任何建议表示赞赏。感谢。
答案 0 :(得分:0)
这个问题的维数当然非常大,但我相信Weka应该能够处理大量的维度。样本数量不应该是一个问题,但是有比NO类更多的NO类样本,所以平衡这两个样本可能有助于更好地分类NO类案例。
如果您认为存在多余尺寸或某些尺寸可能包含噪音,那么它肯定会有所帮助。
决策树不应该是一个太大的问题。 Weka提供了许多算法,但考虑到问题的维度,我不建议使用神经网络。
如果您已将数据保存在CSV文件中,则可以在数据的第一行中指定属性名称。这样,您可以分配属性名称。给定维数,您可能将这些称为a1到a30000并输出为输出类。
希望这有帮助!