基于数据集中的文本字段创建新变量(结果为“0”或“1”)

时间:2014-04-17 00:55:12

标签: r

我正在进行一项练习,以创建一个支持向量机,但我很早就陷入了困境。我正在使用的数据集测量餐馆健康违规行为,可在此处找到:https://health.data.ny.gov/Health/Food-Service-Establishment-Last-Inspection/cnih-y5dw

此数据已导入R-Studio。我需要查看VIOLATIONS变量,并创建一个要添加到此数据集的变量(true / false,0/1?) - 稍后将在SVM部分中使用。经过快速检查后,没有违规行为的餐馆似乎包含文本字符串“未发现违规行为”。在VIOLATIONS变量中。所以我想我需要设置一个函数来运行数千条记录并将条目与该文本进行比较。

我的猜测是,我想给没有违规的餐馆标记“0”或“FALSE”,而有违规的餐馆(任何其他文字)会收到“1”或“TRUE”标记。这需要针对数据集中的每个条目进行处理,并且需要将结果值作为新变量添加到此数据集中(供以后分析)。

我希望有人能提供关于如何解决这个问题的提示或建议(或者只是帮助),所以我可以进入SVM!有什么想法吗?

我不确定最好的方式来问这个,所以当我尝试搜索时没有看到任何好的例子。

1 个答案:

答案 0 :(得分:1)

我致电您的data.frame df和新添加的专栏ANYVIOLATIONS

据我所知,从简短的一瞥所提供的数据VIOLATIONS始终完全匹配"未发现任何违规行为。"如果没有违规行为。因此,获得满足您要求的逻辑向量的代码应该非常简单:

df$ANYVIOLATIONS <- df$VIOLATIONS != "No violations found."