简单问题......例如:
data("crude")
这是一个包含20个文本文档的语料库,我如何获得类似的内容:
1 4
2 6
3 5
4 3
etc...
其中第二列是语料库中的每个文档的行数"原始"?甚至行号的向量也可以。
NROW / nrow似乎不起作用。感谢您的期待!
答案 0 :(得分:4)
您可以使用
计算换行(LF)library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11
crude[[1]]
在我的计算机上有12行,因此对于所有语料库,您可以执行此操作:
sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)
答案 1 :(得分:0)
除了您的实际数据是data.frame之外,您还可以找到项目数量。检查一下
data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]]
#Output
1
1
1
lapply(corp,length)
#Output
$`1`
[1] 3
$`2`
[1] 3
$`3`
[1] 3
$`4`
[1] 3
$`5`
[1] 3