我在数据集中有2列,例如:
Col1 Col2
Kettle Russel Hobs Kettle
Kettle Russel H Kettle
Kettle Toyota Kettle
Rice Cooker Hobs Cooker
Russel Rice Cooker Russel Cooker
我想找到%
次'Russel'OR'Hobs'出现在第二栏GIVEN中,它们没有出现在第一列中。
第1步。查找%
次'Russel'或'Hobs'出现在Vector中。
如果想要创建一个从1到数据集大小的for循环。
每行都会检查'Russel' OR 'Hobs' in the dataset$Col2[I]
我写了以下代码:
n=0
for (i in 1:7406){
if ( 'Russel' %in% dataset$Col2[i] | 'Hobs' %in% dataset$Col2[i])
{n <- n+1}
}
然而,它似乎没有工作,因为n保持在0.我也遇到了Case Sensitivity的问题,但我想最好的方法是将整个数据集转换为更低?
因此,n
会为我们提供品牌的行数,我只需在此示例中找到n/I=4/5
。
第2步。
首先检查第一列中是否出现“Russel”或“Hobs”。如果他们这样做,只需增加计数。因此我们使用NOT参数!对于我们的循环。
if (! 'Russel' %in% dataset$Col1[I]) { }
但是现在我还要添加另一个计数器,以跟踪第一个Col中不包含单词的单词数。
感谢您的帮助。