R中的基本生物医学文本挖掘

时间:2019-06-25 22:39:58

标签: r nlp bioinformatics

我正在尝试对PubMed摘要进行一些基本的文本挖掘。检查我的文档术语矩阵时出现以下错误。

Error in `[.simple_triplet_matrix`(dtm, 1:5, 1:20) : 
  subscript out of bounds

代码:

dtm <- DocumentTermMatrix(docs)
dtm
inspect(dtm[1:5, 1:20])

1 个答案:

答案 0 :(得分:0)

很难说,因为您没有提供可重复的示例,但是我想dtm的尺寸小于[5, 20]。由于这个原因,下面的示例显示了类似的错误消息。

# Load package
library(tm)
#> Loading required package: NLP

# Load data
data("crude")

# Create dtm
dtm <- DocumentTermMatrix(crude)

# Examine dimensions
dim(dtm)
#> [1]   20 1266

# Inspect dtm - no problems
inspect(dtm[1:5, 1:5])
#> <<DocumentTermMatrix (documents: 5, terms: 5)>>
#> Non-/sparse entries: 1/24
#> Sparsity           : 96%
#> Maximal term length: 10
#> Weighting          : term frequency (tf)
#> Sample             :
#>      Terms
#> Docs  ... "(it) "demand "expansion "for
#>   127   0     0       0          0    0
#>   144   0     0       1          0    0
#>   191   0     0       0          0    0
#>   194   0     0       0          0    0
#>   211   0     0       0          0    0

# Inspect outside of dimensions of dtm
inspect(dtm[1:21, 1:5])
#> Error in `[.simple_triplet_matrix`(dtm, 1:21, 1:5): subscript out of bounds

reprex package(v0.2.1.9000)于2019-06-25创建