使用R和cSplit()将文本拆分为单词

时间:2015-09-17 06:49:15

标签: r splitstackshape

我正在尝试将一系列句子分成单独的单词,即标记文本。

我找到了一个R包splitstackshape能够做我想要的,差不多......它将输出截断为第一行和最后五行。

无论如何,这是我需要做的事情:

id text
1 Lorem ipsum dolor sit amet
2 consectetur adipiscing elit
3 Donec euismod enim quis 
4 nunc fringilla sodales
5 Etiam tempor ligula vitae 
6 pellentesque dictum
7 Quisque non justo scelerisque 
8 est facilisis congue quis vel
9 Phasellus ex lorem
10 eleifend at magna vel
11 egestas eleifend massa

输出:

id word
1 Lorem
1 ipsum
1 dolor
1 sit
1 amet
2 consectetur
2 adipiscing
...

也就是说,我需要单独的行中的单词,但是它与它所属的句子的ID一起。

我正在尝试cSplit(data, "text", " ", "long"),但它会截断..

更新。仅供参考,here是如何进行反向的

1 个答案:

答案 0 :(得分:3)

cSplit函数返回data.table

您所描述的是data.table的默认打印行为。要查看此操作,请尝试以下操作:

library(data.table)
as.data.table(airquality)
print(as.data.table(airquality))

print(as.data.table(airquality), nrows = Inf)

因此,要显示完整的表格,您可以尝试:

library(splitstackshape)
print(cSplit(data, "text", " ", "long"), nrows = Inf)