我有一组~10K对象,每个对象有大约150个不同的属性,其中大约四分之一是多值和/或与其他属性相关。
我有一组约120个类别,我想将这些对象排序,每个类别被定义为“模板”对象。如果一个实例与模板完全匹配,那么该对象显然属于该类别......但是,只有大约10%的对象实际上具有完全匹配的模板。因此,我希望能够根据对象与类别的相似性对对象进行评分,并将它们分类为最佳匹配。我还想识别非常相似的对象簇,表明可能有新的/精炼类别。
这似乎是Weka,RapidMiner或其他机器学习/集群/分类系统的工作。但是,我很难在这个领域找到好的介绍性材料,结果无法说明在这种情况下使用这些工具需要多少努力。鉴于这可能是一个持续的需求,我想使用一些能够让我轻松改变分析方法,权重等的东西。
思想?
答案 0 :(得分:1)
让我们谈谈..
如果您的职责是对这些物体进行分类,那么您将能够手动对它们发疯!
我正在剖析类似的数据集,但总是回来到了同一点......这些对象基本上是相同的。
分离它们的模糊逻辑是圣杯......但圣杯是模糊的... :(
你能做什么?...给你的老板一些模糊的公式?这将持续一段时间...
你可以花一辈子的时间试图找到模式,但这可能会让你全部 - 为什么不要试图将观点转移到你能量化的东西上?专注于产出......
答案 1 :(得分:0)
RapidMiner附带了一个集成的在线教程。只需启动RapidMiner,然后转到“帮助”,然后转到“RapidMiner教程”。 Yon还可以从Rapid-I网页下载免费的PDF RapidMiner教程。 Rapid-I网页上还有一个免费的小型入门RapidMiner视频,如果您查看Rapid-I网页的服务部分,还有许多RapidMiner培训课程。
答案 2 :(得分:0)
您想要开发的是一个基于案例的推理系统,一种知识工程引擎。
查看myCBR和Protege。 Protege是斯坦福大学的本体工程引擎,myCBR是由Thomas R. Roth-Berghofer开发的基于案例的推理系统。
MyCBR插入Protege,这将完全符合您的要求。
重点:
的Protege:
myCBR: