应用错误收集

寻找基于其属性对对象进行分类的方法

时间：2009-06-05 18:48:06

标签： cluster-analysis classification

我有一组~10K对象，每个对象有大约150个不同的属性，其中大约四分之一是多值和/或与其他属性相关。

我有一组约120个类别，我想将这些对象排序，每个类别被定义为“模板”对象。如果一个实例与模板完全匹配，那么该对象显然属于该类别......但是，只有大约10％的对象实际上具有完全匹配的模板。因此，我希望能够根据对象与类别的相似性对对象进行评分，并将它们分类为最佳匹配。我还想识别非常相似的对象簇，表明可能有新的/精炼类别。

这似乎是Weka，RapidMiner或其他机器学习/集群/分类系统的工作。但是，我很难在这个领域找到好的介绍性材料，结果无法说明在这种情况下使用这些工具需要多少努力。鉴于这可能是一个持续的需求，我想使用一些能够让我轻松改变分析方法，权重等的东西。

思想？

3 个答案:

答案 0 :(得分：1)

让我们谈谈..
如果您的职责是对这些物体进行分类，那么您将能够手动对它们发疯！

我正在剖析类似的数据集，但总是回来到了同一点......这些对象基本上是相同的。
分离它们的模糊逻辑是圣杯......但圣杯是模糊的... :(
你能做什么？...给你的老板一些模糊的公式？这将持续一段时间...

你可以花一辈子的时间试图找到模式，但这可能会让你全部 - 为什么不要试图将观点转移到你能量化的东西上？专注于产出......

答案 1 :(得分：0)

RapidMiner附带了一个集成的在线教程。只需启动RapidMiner，然后转到“帮助”，然后转到“RapidMiner教程”。 Yon还可以从Rapid-I网页下载免费的PDF RapidMiner教程。 Rapid-I网页上还有一个免费的小型入门RapidMiner视频，如果您查看Rapid-I网页的服务部分，还有许多RapidMiner培训课程。

答案 2 :(得分：0)

您想要开发的是一个基于案例的推理系统，一种知识工程引擎。

查看myCBR和Protege。 Protege是斯坦福大学的本体工程引擎，myCBR是由Thomas R. Roth-Berghofer开发的基于案例的推理系统。

MyCBR插入Protege，这将完全符合您的要求。

重点：

将您的数据保持为CSV格式，并确保其干净利落 - 如果它不是完美无暇，那么Protege / myCBR将会出现问题。
在您尝试导入任何内容之前，请阅读myCBR的说明，因为如果不这样做，您会感到沮丧。
导出数据更加困难，但理论上您可以将结果导出为Java模块。 Protege是开源的，myCBR也是如此 - 所以我相信没有许可费。
您可以为类别设置权重，这可能对您有用。

的Protege：

http://protege.stanford.edu/

myCBR：

http://mycbr-project.net/