如何计算R中语料库的每个文件中的行数

时间:2014-06-05 09:25:35

标签: r row corpus

简单问题......例如:

data("crude")

这是一个包含20个文本文档的语料库,我如何获得类似的内容:

1  4
2  6
3  5
4  3
etc...

其中第二列是语料库中的每个文档的行数"原始"?甚至行号的向量也可以。

NROW / nrow似乎不起作用。

感谢您的期待!

2 个答案:

答案 0 :(得分:4)

您可以使用

计算换行(LF)
library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11

crude[[1]]在我的计算机上有12行,因此对于所有语料库,您可以执行此操作:

sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)

答案 1 :(得分:0)

除了您的实际数据是data.frame之外,您还可以找到项目数量。检查一下

data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]] 
#Output
 1
 1
 1

lapply(corp,length)
#Output
 $`1`
 [1] 3

 $`2`
 [1] 3

 $`3`
 [1] 3

 $`4`
 [1] 3

 $`5`
 [1] 3