R数据清理

时间:2017-06-21 20:55:35

标签: r data-cleaning

我将数据框(df1)作为单列数据报废。

1
2  Amazon Pantry
3  Best Sellerin Soaps & Hand Wash
4
5  Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml
6  Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml
7   £0.90
8    ?
9
10  Palmolive Naturals Nourishing Liquid Hand Wash, 300ml
11  Palmolive Naturals Nourishing Liquid Hand Wash, 300ml
12  £0.90
13  ?
14
15  L'Oreal Men Expert Carbon Protect Deodorant 250ml
16  L'Oreal Men Expert Carbon Protect Deodorant 250ml
17  £1.50

为了清理我尝试使用以下命令的数据,以便在2个单独的列中获取产品和定价信息。如果有其他方法,有人可以告诉我。

install.packages("splitstackshape")
newdf <- cSplit(df1, "Amazon_Normal_Text2", direction = "long")

1 个答案:

答案 0 :(得分:0)

这只是一个思考过程......

  1. 每次有&#34; ml,&#34;提取信息直到ml向后,直到有空格并将其存储到volume变量中。 (substr
  2. £提取信息到字符串的末尾并将其存储到价格变量中。 (grepregexnchar
  3. 从字符串的开头提取,直到将卷出现的字符位置转换为产品变量(substrnchar
  4. 查看substrnchargrepregex