Question

简单问题......例如：

data("crude")

这是一个包含20个文本文档的语料库，我如何获得类似的内容：

1  4
2  6
3  5
4  3
etc...

其中第二列是语料库中的每个文档的行数＆＃34;原始＆＃34;？甚至行号的向量也可以。

NROW / nrow似乎不起作用。

感谢您的期待！

Answer 1

您可以使用

计算换行（LF）

library(stringr)
str_count(string = crude[[1]], pattern = "\\n")
# [1] 11

crude[[1]]在我的计算机上有12行，因此对于所有语料库，您可以执行此操作：

sapply(crude, FUN = function(x) str_count(string = x, pattern = "\\n") + 1)

Answer 2

除了您的实际数据是data.frame之外，您还可以找到项目数量。检查一下

data = data.frame(x=1:5,y=1:5,z=1:5)
corp = Corpus(DataframeSource(data))
corp[[1]] 
#Output
 1
 1
 1

lapply(corp,length)
#Output
 $`1`
 [1] 3

 $`2`
 [1] 3

 $`3`
 [1] 3

 $`4`
 [1] 3

 $`5`
 [1] 3

如何计算R中语料库的每个文件中的行数

2 个答案: