这不是与编程直接相关的问题,而是关于选择正确的数据挖掘算法。
我有一些文件夹假设有100个文件夹,这些文件夹的内容是图像和文本文件,我有这些文件夹的excel表(100个表),这意味着每个文件夹都有特定的表,这个excel表的内容如下: / p> 标题(列标题)中的包含此文件夹的内容,行包括我要检查的文件(我的测试文件),如果文件是,则此表中的值为o和1&s;在该文件夹中找到值1,否则为o,这些测试文件名对于所有文件夹都是相同的,
问:什么是最好的数据挖掘算法可以在excel文件表上工作,并且可以根据测试文件内容集群这些文件夹,例如集群1包含文件夹,其中包含文件1和文件20以及文件25 ..等等在..考虑我使用matlab语言?谢谢......
答案 0 :(得分:1)
这里的英语有点令人困惑,所以我会尽可能地解释这个问题。你想在这里做什么似乎并不需要任何复杂的算法。继续获取您的Excel数据并将其导出为CSV,以便您可以在Matlab中工作。
现在您的数据如下:
Folder -> [ Files ]
您可能希望以这种方式构建索引:
File -> [ Folders ]
这样,当你问这个问题时:"哪些文件夹包含文件1,20和25",你可以查找(在固定时间内)3件事:
然后取这些集合的交集。
=============================================== ====
您可能感兴趣的另一件事是"群集"。为此,请继续使用文件夹描述符(1和0)并将其视为特征/向量。然后继续运行任何聚类算法。 K-means聚类在Matlab中很容易实现。