寻找基于其属性对对象进行分类的方法

时间:2009-06-05 18:48:06

标签: cluster-analysis classification

我有一组~10K对象,每个对象有大约150个不同的属性,其中大约四分之一是多值和/或与其他属性相关。

我有一组约120个类别,我想将这些对象排序,每个类别被定义为“模板”对象。如果一个实例与模板完全匹配,那么该对象显然属于该类别......但是,只有大约10%的对象实际上具有完全匹配的模板。因此,我希望能够根据对象与类别的相似性对对象进行评分,并将它们分类为最佳匹配。我还想识别非常相似的对象簇,表明可能有新的/精炼类别。

这似乎是Weka,RapidMiner或其他机器学习/集群/分类系统的工作。但是,我很难在这个领域找到好的介绍性材料,结果无法说明在这种情况下使用这些工具需要多少努力。鉴于这可能是一个持续的需求,我想使用一些能够让我轻松改变分析方法,权重等的东西。

思想?

3 个答案:

答案 0 :(得分:1)

让我们谈谈..
如果您的职责是对这些物体进行分类,那么您将能够手动对它们发疯!

我正在剖析类似的数据集,但总是回来到了同一点......这些对象基本上是相同的。
分离它们的模糊逻辑是圣杯......但圣杯是模糊的... :(
你能做什么?...给你的老板一些模糊的公式?这将持续一段时间...

你可以花一辈子的时间试图找到模式,但这可能会让你全部 - 为什么不要试图将观点转移到你能量化的东西上?专注于产出......

答案 1 :(得分:0)

RapidMiner附带了一个集成的在线教程。只需启动RapidMiner,然后转到“帮助”,然后转到“RapidMiner教程”。 Yon还可以从Rapid-I网页下载免费的PDF RapidMiner教程。 Rapid-I网页上还有一个免费的小型入门RapidMiner视频,如果您查看Rapid-I网页的服务部分,还有许多RapidMiner培训课程。

答案 2 :(得分:0)

您想要开发的是一个基于案例的推理系统,一种知识工程引擎。

查看myCBR和Protege。 Protege是斯坦福大学的本体工程引擎,myCBR是由Thomas R. Roth-Berghofer开发的基于案例的推理系统。

MyCBR插入Protege,这将完全符合您的要求。

重点:

  1. 将您的数据保持为CSV格式,并确保其干净利落 - 如果它不是完美无暇,那么Protege / myCBR将会出现问题。
  2. 在您尝试导入任何内容之前,请阅读myCBR的说明,因为如果不这样做,您会感到沮丧。
  3. 导出数据更加困难,但理论上您可以将结果导出为Java模块。 Protege是开源的,myCBR也是如此 - 所以我相信没有许可费。
  4. 您可以为类别设置权重,这可能对您有用。
  5. 的Protege:

    http://protege.stanford.edu/

    myCBR:

    http://mycbr-project.net/