数据挖掘算法,建议这种情况

时间:2015-09-06 22:15:55

标签: excel algorithm data-mining text-mining

这不是与编程直接相关的问题,而是关于选择正确的数据挖掘算法。

我有一些文件夹假设有100个文件夹,这些文件夹的内容是图像和文本文件,我有这些文件夹的excel表(100个表),这意味着每个文件夹都有特定的表,这个excel表的内容如下: / p> 标题(列标题)中的

包含此文件夹的内容,行包括我要检查的文件(我的测试文件),如果文件是,则此表中的值为o和1&s;在该文件夹中找到值1,否则为o,这些测试文件名对于所有文件夹都是相同的,

问:什么是最好的数据挖掘算法可以在excel文件表上工作,并且可以根据测试文件内容集群这些文件夹,例如集群1包含文件夹,其中包含文件1和文件20以及文件25 ..等等在..考虑我使用matlab语言?

谢谢......

1 个答案:

答案 0 :(得分:1)

这里的英语有点令人困惑,所以我会尽可能地解释这个问题。你想在这里做什么似乎并不需要任何复杂的算法。继续获取您的Excel数据并将其导出为CSV,以便您可以在Matlab中工作。

现在您的数据如下:

Folder -> [ Files ]

您可能希望以这种方式构建索引:

File -> [ Folders ]

这样,当你问这个问题时:"哪些文件夹包含文件1,20和25",你可以查找(在固定时间内)3件事:

  1. 包含文件1的文件夹
  2. 包含文件20的文件夹
  3. 包含文件25的文件夹
  4. 然后取这些集合的交集。

    =============================================== ====

    您可能感兴趣的另一件事是"群集"。为此,请继续使用文件夹描述符(1和0)并将其视为特征/向量。然后继续运行任何聚类算法。 K-means聚类在Matlab中很容易实现。

    [1] https://en.wikipedia.org/wiki/Cluster_analysis