Question

我有一个名为＆＃39; messaround＆＃39;的数据框。在[r]中，我通过在另一个名为＆＃39; products＆＃39;的数据框架上创建带有ngrams的短语来生成。我有一个专栏＆＃39;产品＆＃39; 产品类型和其他信息，如数量，尺寸，颜色，品牌等。我希望选择最好的截止点＆＃39; messaround $ phrase＆＃39;我可以用它作为一种模式来提取我的产品＆＃39;数据框并保留所有其他信息。我希望通过使用＆＃39; 1＆＃39;标记一个混乱的$选择器来做到这一点。在适当的行（然后我可以在此过滤掉消息的$短语并从那里开始向前推进（我认为））。我刚刚创建了一个messaround $ selector作为NAs的向量。

messaround还有一个列，指示每个短语的出现。我希望将整个短语保留在只有一个例子的地方。即如果我有汽车黑＆＃39;选择器将是＆＃39; 1＆＃39;但是，如果我有汽车黑＆＃39;和'蓝色汽车＆＃39;我想要两个上面的行的选择器字段，这将是＆＃39; car＆＃39;出现两个，是＆＃39; 1＆＃39; （使用＆＃39; 1＆＃39;是任意的，仅用于下一阶段的过滤）。

我希望我的示例下面的一小部分数据更好地说明了我的任务。我用“＆＃39; 1＆＃39;标记选择器在我的理想点。

从一开始我就不提供我迄今为止尝试过的解决方案而道歉。我想，有一些但不值得向你展示，只会混淆我的问题。感谢您提前提供任何帮助。

occurence   phrases                             selector
3           juice 250ml                         1
1           juice 250ml apple                   NA
1           juice 250ml apple malati            NA
1           juice 250ml apple malati 100%       NA
1           juice 250ml apple malati 100% x     NA
1           juice 250ml apple malati 100% x 1   NA
1           juice 250ml mango                   NA
1           juice 250ml mango malati            NA
1           juice 250ml mango malati 100%       NA
1           juice 250ml mango malati 100% x     NA
1           juice 250ml mango malati 100% x 1   NA
1           juice 250ml orange                  NA
1           juice 250ml orange malati           NA
1           juice 250ml orange malati 100%      NA
1           juice 250ml orange malati 100% x    NA
1           juice 250ml orange malati 100% x 1  NA
1           letaba                              NA
1           letaba herald                       NA
1           letaba herald newspaper             NA
1           letaba herald newspaper x           NA
1           letaba herald newspaper x 1         1
2           lettuce                             1
1           lettuce each                        NA
1           lettuce p/pack                      NA
1           lettuce p/pack x                    NA
1           lettuce p/pack x 1                  NA

请注意，我刚刚编辑了生菜＆＃39;数据，因为我放置了选择器＆＃39; 1＆＃39;在错误的一排。 Woops - 抱歉。

比较[R]

0 个答案: