我是使用Rapidminer的学生,我正在使用Yummly的什么烹饪数据集(https://www.kaggle.com/c/whats-cooking/data)进行项目。该数据集有20种不同的美食类型(例如意大利,中国,印度等)。
我们的目标是开发一种数据挖掘模型,通过分析菜肴的成分列表来识别未来菜肴的烹饪类型。我们正在使用关联规则来执行此操作。但是,我一直没有找到规则"并且不知道为什么。我认为这与我的属性被格式化为文本而不是使用名义二进制运算符有关,但我不确定如何解决它。
目前我的流程看起来像......
数据 - >选择属性 - > FP增长 - >创建关联规则
你能帮忙吗?
答案 0 :(得分:0)
根据FP-Growth运算符的文档,示例集中的所有属性都需要是二项式的。
我会承认 - 我没有直接查看数据,因为我不想在kaggle上注册一个帐号,所以我不确定它是如何格式化的,但你可能想要设置作为标签的烹饪类型然后使每个剩余属性代表包含在一个或多个食谱中的每种成分。如果使用该成分,每个培养皿中的柱子将为1,如果不使用则为0。 (根据数据的原始格式,由于您提到了它的文本,您可能需要查看文本处理扩展,这可以创建一个像我刚才描述的示例集。)然后,如果将0和1转换为二项式,你应该能够使用FP-Growth。