我是数据挖掘分析和机器学习的新手。我一直试图将使用RapidMiner和Weka的预测分析和聚类分析用于我的大学任务。
在我研究了这两种工具的优点和缺点并开始进行分析过程之后,我发现了一些问题。我尝试使用K-means和simpleKmeans进行聚类,使用LinearRegression进行Weka和回归分析,我对结果不太满意,因为它们包含显着不同的结果。所有这些都使用了相同的数据集。数值数据集。
我花了很多时间通过研究每个工具的每个算法的初始化来尝试解决问题,因为接口不同,并且有一些参数在RapidMiner上但不在Weka或其他方面,所以我是有点困惑。 (这是问题吗?)
尽管你认为这是错的?我错过了一些初始化过程吗?或者是因为每个工具的代码都不同,即使他们使用相同的算法?
感谢您的回答!
答案 0 :(得分:2)
Weka经常使用内置的规范化,至少在k-means和其他算法中。
如果您想使结果具有可比性,请确保已禁用此功能。
还要了解k-means是随机算法。甚至来自相同包装的不同结果也是预期的(并且是可取的)。
答案 1 :(得分:0)
你使用WEKA本身还是使用quickminer的WEKA扩展?您是否尝试将WEKA与RM WEKA的结果进行比较?