如何在R中使用Quanteda获得基本的可读性统计信息

时间:2019-03-21 10:59:04

标签: r nlp quanteda

对于数百个pdf中的非常基本的见解,我想计算所有这些pdf的可读性得分(Flesch Kincaid),并将其显示在电子表格中。我在R中的技能不足,我自己也找不到解决方案。我正在寻找一个非常基本的解决方案。这是我到目前为止的内容:

directory <- "my_folder"
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf),
                     readerControl = list(reader = readPDF, language = "dutch"))

但是,当使用Quanteda时,我收到错误消息:“使用以下内容时,提供的行名长度错误”

textstat_readability(corpus(my_corpus), measure = "Flesch.Kincaid")

有没有办法解决这个问题,或者存在替代方法?

1 个答案:

答案 0 :(得分:2)

是-避免使用 tm 工作流程。

directory <- "my_folder"
my_corpus <- readtext::readtext(paste0(directory, “/*.pdf”))
textstat_readability(corpus(my_corpus))

但是请记住,许多可读性度量所需的音节计数功能在荷兰语中可能无法正常运行。