我有一个名为' messaround'的数据框。在[r]中,我通过在另一个名为' products'的数据框架上创建带有ngrams的短语来生成。我有一个专栏'产品' 产品类型和其他信息,如数量,尺寸,颜色,品牌等。我希望选择最好的截止点' messaround $ phrase& #39;我可以用它作为一种模式来提取我的产品'数据框并保留所有其他信息。我希望通过使用' 1'标记一个混乱的$选择器来做到这一点。在适当的行(然后我可以在此过滤掉消息的$短语并从那里开始向前推进(我认为))。我刚刚创建了一个messaround $ selector作为NAs的向量。
messaround还有一个列,指示每个短语的出现。我希望将整个短语保留在只有一个例子的地方。即如果我有汽车黑'选择器将是' 1'但是,如果我有汽车黑'和'蓝色汽车'我想要两个上面的行的选择器字段,这将是' car'出现两个,是' 1' (使用' 1'是任意的,仅用于下一阶段的过滤)。
我希望我的示例下面的一小部分数据更好地说明了我的任务。我用“' 1'标记选择器在我的理想点。
从一开始我就不提供我迄今为止尝试过的解决方案而道歉。我想,有一些但不值得向你展示,只会混淆我的问题。感谢您提前提供任何帮助。
occurence phrases selector
3 juice 250ml 1
1 juice 250ml apple NA
1 juice 250ml apple malati NA
1 juice 250ml apple malati 100% NA
1 juice 250ml apple malati 100% x NA
1 juice 250ml apple malati 100% x 1 NA
1 juice 250ml mango NA
1 juice 250ml mango malati NA
1 juice 250ml mango malati 100% NA
1 juice 250ml mango malati 100% x NA
1 juice 250ml mango malati 100% x 1 NA
1 juice 250ml orange NA
1 juice 250ml orange malati NA
1 juice 250ml orange malati 100% NA
1 juice 250ml orange malati 100% x NA
1 juice 250ml orange malati 100% x 1 NA
1 letaba NA
1 letaba herald NA
1 letaba herald newspaper NA
1 letaba herald newspaper x NA
1 letaba herald newspaper x 1 1
2 lettuce 1
1 lettuce each NA
1 lettuce p/pack NA
1 lettuce p/pack x NA
1 lettuce p/pack x 1 NA
请注意,我刚刚编辑了生菜'数据,因为我放置了选择器' 1'在错误的一排。 Woops - 抱歉。