比较[R]

时间:2015-12-10 09:46:02

标签: r string-matching

我有一个名为' messaround'的数据框。在[r]中,我通过在另一个名为' products'的数据框架上创建带有ngrams的短语来生成。我有一个专栏'产品' 产品类型其他信息,如数量,尺寸,颜色,品牌等。我希望选择最好的截止点' messaround $ phrase& #39;我可以用它作为一种模式来提取我的产品'数据框并保留所有其他信息。我希望通过使用' 1'标记一个混乱的$选择器来做到这一点。在适当的行(然后我可以在此过滤掉消息的$短语并从那里开始向前推进(我认为))。我刚刚创建了一个messaround $ selector作为NAs的向量。

messaround还有一个列,指示每个短语的出现。我希望将整个短语保留在只有一个例子的地方。即如果我有汽车黑'选择器将是' 1'但是,如果我有汽车黑'和'蓝色汽车'我想要两个上面的行的选择器字段,这将是' car'出现两个,是' 1' (使用' 1'是任意的,仅用于下一阶段的过滤)。

我希望我的示例下面的一小部分数据更好地说明了我的任务。我用“' 1'标记选择器在我的理想点。

从一开始我就不提供我迄今为止尝试过的解决方案而道歉。我想,有一些但不值得向你展示,只会混淆我的问题。感谢您提前提供任何帮助。

occurence   phrases                             selector
3           juice 250ml                         1
1           juice 250ml apple                   NA
1           juice 250ml apple malati            NA
1           juice 250ml apple malati 100%       NA
1           juice 250ml apple malati 100% x     NA
1           juice 250ml apple malati 100% x 1   NA
1           juice 250ml mango                   NA
1           juice 250ml mango malati            NA
1           juice 250ml mango malati 100%       NA
1           juice 250ml mango malati 100% x     NA
1           juice 250ml mango malati 100% x 1   NA
1           juice 250ml orange                  NA
1           juice 250ml orange malati           NA
1           juice 250ml orange malati 100%      NA
1           juice 250ml orange malati 100% x    NA
1           juice 250ml orange malati 100% x 1  NA
1           letaba                              NA
1           letaba herald                       NA
1           letaba herald newspaper             NA
1           letaba herald newspaper x           NA
1           letaba herald newspaper x 1         1
2           lettuce                             1
1           lettuce each                        NA
1           lettuce p/pack                      NA
1           lettuce p/pack x                    NA
1           lettuce p/pack x 1                  NA

请注意,我刚刚编辑了生菜'数据,因为我放置了选择器' 1'在错误的一排。 Woops - 抱歉。

0 个答案:

没有答案