R数据帧内的字符串标记化

时间:2014-09-17 21:08:38

标签: r dataframe

我在R中有数据帧,可以使用以下代码重现:

id1 <- c("NP", "AK", "HT")
id2 <- c("t1", "t5", "t2")
Sentence <- c("This is an example .", "This too !", "Ok")
df <- data.frame(id1, id2, Sentence)

看起来像这样:

  id1   id2   Sentence
1  NP    t1   This is an example .
2  AK    t5   This too !
3  HT    t2   Ok

我想将它重组为类似的东西,其中Sentence列中的每个单元除以空格:

  id1   id2   Sentence
1  NP    t1   This
2  NP    t1   is
3  NP    t1   an
4  NP    t1   example
5  NP    t1   .
6  AK    t5   This
7  AK    t5   too
8  AK    t5   !
9  HT    t2   Ok

我知道有函数strsplit,然后包tm似乎也有一个名为tokenizer的函数,但我真的不明白我怎么能在数据框内做这样的事情。

谢谢!

0 个答案:

没有答案