我正在尝试对PubMed摘要进行一些基本的文本挖掘。检查我的文档术语矩阵时出现以下错误。
Error in `[.simple_triplet_matrix`(dtm, 1:5, 1:20) :
subscript out of bounds
代码:
dtm <- DocumentTermMatrix(docs)
dtm
inspect(dtm[1:5, 1:20])
答案 0 :(得分:0)
很难说,因为您没有提供可重复的示例,但是我想dtm
的尺寸小于[5, 20]
。由于这个原因,下面的示例显示了类似的错误消息。
# Load package
library(tm)
#> Loading required package: NLP
# Load data
data("crude")
# Create dtm
dtm <- DocumentTermMatrix(crude)
# Examine dimensions
dim(dtm)
#> [1] 20 1266
# Inspect dtm - no problems
inspect(dtm[1:5, 1:5])
#> <<DocumentTermMatrix (documents: 5, terms: 5)>>
#> Non-/sparse entries: 1/24
#> Sparsity : 96%
#> Maximal term length: 10
#> Weighting : term frequency (tf)
#> Sample :
#> Terms
#> Docs ... "(it) "demand "expansion "for
#> 127 0 0 0 0 0
#> 144 0 0 1 0 0
#> 191 0 0 0 0 0
#> 194 0 0 0 0 0
#> 211 0 0 0 0 0
# Inspect outside of dimensions of dtm
inspect(dtm[1:21, 1:5])
#> Error in `[.simple_triplet_matrix`(dtm, 1:21, 1:5): subscript out of bounds
由reprex package(v0.2.1.9000)于2019-06-25创建